过滤文本中的中英文标点符号、字母、数字、表情

最新推荐文章于 2023-02-07 12:15:29 发布

*Snowgrass*

最新推荐文章于 2023-02-07 12:15:29 发布

阅读量3.2k

点赞数 4

分类专栏： Python基础知识 NLP 文章标签：文本清洗清洗表情中英文标点符号清洗文本处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36535820/article/details/99070825

版权

Python基础知识同时被 2 个专栏收录

67 篇文章 3 订阅

订阅专栏

13 篇文章 1 订阅

订阅专栏

目录

1.过滤中文标点符号

2.过滤英文标点符号

3.过滤大小写字母

5.过滤中英文标点符号、字母及数字

1.过滤中文标点符号

import re
import zhon
from zhon.hanzi import punctuation

#过滤中文标点符号
def filter_punc(desstr,restr=''):
    pattern = re.compile("|[%s]+" % zhon.hanzi.punctuation)#匹配中英文符号及字母数字
    return pattern.sub(restr,desstr)

2.过滤英文标点符号

import re
import string

#过滤英文标点符号
def filter_punc(desstr,restr=''):
    pattern = re.compile("[%s]+" % string.punctuation)#匹配中英文符号及字母数字
    return pattern.sub(restr,desstr)

3.过滤大小写字母

import re

#过滤大小写字母
def filter_punc(desstr,restr=''):
    pattern = re.compile("|[%s]+" % 'a-zA-Z')#匹配中英文符号及字母数字
    return pattern.sub(restr,desstr)

4.过滤数字

import re

#过滤数字
def filter_punc(desstr,restr=''):
    pattern = re.compile("|[%s]+" % '0-9')#匹配中英文符号及字母数字
    return pattern.sub(restr,desstr)

5.过滤中英文标点符号、字母及数字

import re
import string
import zhon
from zhon.hanzi import punctuation

#过滤中英文标点符号、字母、数字
def filter_punc(desstr,restr=''):
    pattern = re.compile("[%s]+" % string.punctuation + "|[%s]+" % zhon.hanzi.punctuation + "|[%s]+" % 'a-zA-Z0-9')#匹配中英文符号及字母数字
    return pattern.sub(restr,desstr)

6.过滤表情

import re

def filter_emoji(desstr,restr=''): 
    try: 
       co = re.compile(u'[\U00010000-\U0010ffff]') 
    except re.error:
       co = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]') 
    return co.sub(restr, desstr)

关注

4
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
过滤文本中的中英文标点符号、字母、数字、表情

目录1.过滤中文标点符号2.过滤英文标点符号3.过滤大小写字母4.过滤数字5.过滤中英文标点符号、字母及数字6.过滤表情1.过滤中文标点符号import reimport zhonfrom zhon.hanzi import punctuation#过滤中文标点符号def filter_punc(desstr,restr=''): patt...
复制链接

扫一扫

专栏目录

*Snowgrass* CSDN认证博客专家 CSDN认证企业博客

码龄8年

207: 原创

2万+: 周排名

3万+: 总排名

69万+: 访问

: 等级

6023: 积分

4698: 粉丝

410: 获赞

103: 评论

2414: 收藏

私信

关注

热门文章

分类专栏

Maven 3篇
Git
Hadoop 6篇
Scala 8篇
Linux 2篇
推荐系统 2篇
notepad++ 1篇
知识图谱 2篇
HIVE 19篇
python图库 1篇
win10 6篇
主题模型 1篇
Java 39篇
图像识别 1篇
问答系统 2篇
Djago学习记录 4篇
python错误 18篇
安装模块 21篇
Python基础知识 67篇
NLP 13篇
MySQL 9篇
Keras 1篇
Spark 18篇
机器学习 29篇

最新评论

tqdm安装
qq_46115190: 可以用了，谢谢
安装成功sklearn,导入模块报错：
m0_62352898: 太感谢了，好人一生平安
RandomForestRegressor 参数
为毕业苦恼的研究生: cy随机森林树模型参数介绍
virtualenv中运行的jupyter notebook，在import pandas时报错，ImportError: No module named 'pandas'
陳月亮️: 我用了这个方法还是不行，输入import torch 输出还是ModuleNotFoundError Traceback (most recent call last) Cell In[9], line 1 ----> 1 import torch ModuleNotFoundError: No module named 'torch'
read_sql、read_sql_table和read_sql_query区别
林北的四文鱼: read_sql_table 基本已经报废了，连接SQLIte之外的库需要依赖sqlalchemy，而且还连不上，老古董

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。