emoji数据清洗

本文探讨如何利用emoji库提升微博文本中表情符号的准确捕捉,介绍filter_emoji函数实现emoji过滤和替换,以提高数据处理效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在对微博等文本数据进行处理的时候发现以往的颜文字之外还会抓取到emoji数据,这部分虽然可以匹配到,但是经常挂一漏万。在网上检索到有一个emoji库可以使用。

直接pip安装emoji库

import emoji
import re
def filter_emoji(desstr,restr=''):  
    #过滤表情   
    try:  
        co = re.compile(u'[\U00010000-\U0010ffff]|\u200b')  
    except re.error:  
        co = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')  
    return co.sub(restr, desstr)

filter_emoji(str)

str='#双减政策# vipkid政策今天终于还是出了😮🌬沐沐和他最喜欢的YUC上课的机会不多了...这么好又负责任的老师  真舍不得... ​'

# '#双减政策# vipkid政策今天终于还是出了沐沐和他最喜欢的YUC上课的机会不多了...这么好又负责任的老师  真舍不得... '

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值