Python正则匹配去除文本中的各类emoji表情符号

最新推荐文章于 2024-07-06 02:48:53 发布

python-小卒

最新推荐文章于 2024-07-06 02:48:53 发布

阅读量5.3k

点赞数 5

分类专栏： Python基础文章标签： gnu p2p webview

原文链接：https://blog.csdn.net/life_stranded/article/details/95728637

版权

Python基础专栏收录该内容

15 篇文章

订阅专栏

"在处理文本数据时，清除表情符号对于获取高质量文本至关重要。可以使用Python的正则表达式来匹配并移除表情。例如，通过指定Unicode范围，如u2600-u2B55和U0001F300-U0010FFFF，可以匹配到大多数表情。这种方法能有效去除包括符号、表情、交通符号、地图符号和其他特殊符号在内的多种类型的表情。"

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我们的文本数据中经常会带有很多表情，如何完整地清除得到高质量的文本供我们利用呢？

p = re.compile(u'['u'\U0001F300-\U0001F64F' u'\U0001F680-\U0001F6FF' u'\u2600-\u2B55 \U00010000-\U0010ffff]+')

txt = re.sub(p,'',text) # 正则匹配，将表情符合替换为空''

正则编码解释如下：

<U+1F300> - <U+1F5FF> # 符号和象形字

<U+1F600> - <U+1F64F> # 表情符号

<U+1F680> - <U+1F6FF> # 交通符号和地图符号

<U+2600> - <U+2B55> # 其它符号

\U00010000-\U0010ffff # 英文emoji表情

参考链接：

Python正则匹配一招完整去除文本中的各类表情符号

用python正则表达式处理emoji类型的字符问题