在对微博等文本数据进行处理的时候发现以往的颜文字之外还会抓取到emoji数据,这部分虽然可以匹配到,但是经常挂一漏万。在网上检索到有一个emoji库可以使用。
直接pip安装emoji库
import emoji
import re
def filter_emoji(desstr,restr=''):
#过滤表情
try:
co = re.compile(u'[\U00010000-\U0010ffff]|\u200b')
except re.error:
co = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')
return co.sub(restr, desstr)
filter_emoji(str)
str='#双减政策# vipkid政策今天终于还是出了😮🌬沐沐和他最喜欢的YUC上课的机会不多了...这么好又负责任的老师 真舍不得... '
# '#双减政策# vipkid政策今天终于还是出了沐沐和他最喜欢的YUC上课的机会不多了...这么好又负责任的老师 真舍不得... '