过滤文本中的中英文标点符号、字母、数字、表情

目录

 

1.过滤中文标点符号

2.过滤英文标点符号

3.过滤大小写字母

4.过滤数字

5.过滤中英文标点符号、字母及数字

6.过滤表情


1.过滤中文标点符号

import re
import zhon
from zhon.hanzi import punctuation

#过滤中文标点符号
def filter_punc(desstr,restr=''):
    pattern = re.compile("|[%s]+" % zhon.hanzi.punctuation)#匹配中英文符号及字母数字
    return pattern.sub(restr,desstr)

2.过滤英文标点符号

import re
import string

#过滤英文标点符号
def filter_punc(desstr,restr=''):
    pattern = re.compile("[%s]+" % string.punctuation)#匹配中英文符号及字母数字
    return pattern.sub(restr,desstr)

3.过滤大小写字母

import re

#过滤大小写字母
def filter_punc(desstr,restr=''):
    pattern = re.compile("|[%s]+" % 'a-zA-Z')#匹配中英文符号及字母数字
    return pattern.sub(restr,desstr)

4.过滤数字

import re

#过滤数字
def filter_punc(desstr,restr=''):
    pattern = re.compile("|[%s]+" % '0-9')#匹配中英文符号及字母数字
    return pattern.sub(restr,desstr)

5.过滤中英文标点符号、字母及数字

import re
import string
import zhon
from zhon.hanzi import punctuation

#过滤中英文标点符号、字母、数字
def filter_punc(desstr,restr=''):
    pattern = re.compile("[%s]+" % string.punctuation + "|[%s]+" % zhon.hanzi.punctuation + "|[%s]+" % 'a-zA-Z0-9')#匹配中英文符号及字母数字
    return pattern.sub(restr,desstr)

6.过滤表情

import re

def filter_emoji(desstr,restr=''): 
    try: 
       co = re.compile(u'[\U00010000-\U0010ffff]') 
    except re.error:
       co = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]') 
    return co.sub(restr, desstr)

 

  • 4
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值