我们的文本数据中经常会带有很多表情,如何完整地清除得到高质量的文本供我们利用呢?
p = re.compile(u'['u'\U0001F300-\U0001F64F' u'\U0001F680-\U0001F6FF' u'\u2600-\u2B55 \U00010000-\U0010ffff]+')
txt = re.sub(p,'',text) # 正则匹配,将表情符合替换为空''
正则编码解释如下:
<U+1F300> - <U+1F5FF> # 符号和象形字
<U+1F600> - <U+1F64F> # 表情符号
<U+1F680> - <U+1F6FF> # 交通符号和地图符号
<U+2600> - <U+2B55> # 其它符号
\U00010000-\U0010ffff # 英文emoji表情
参考链接: