NLP预处理使用`python`的`emoji`库过滤emoji表情

在NLP预处理字符串时,可能会需要删除emoji表情,最简单的就是使用Python的emoji库过滤,举一例子大家就懂了:

比如字符串:

>>> my_decri_str = '我年华虚度,空有一身疲倦😭; 东隅已逝,桑榆非晚💪; 山有木兮木有枝,心悦君兮君在哪?😆'
>>> # 我只是为了能凑能用分号的条件,随便找了俩句话
>>> print(my_decri_str)
我年华虚度,空有一身疲倦😭; 东隅已逝,桑榆非晚💪; 山有木兮木有枝,心悦君兮君在哪?😆

终端安装emoji包:

pip install  emoji -i https://mirror.baidu.com/pypi/simple # 使用百度的源
>>> import emoji
>>> result= emoji.demojize(my_decri_str )
>>> print(result)
'我年华虚度,空有一身疲倦:loudly_crying_face:; 东隅已逝,桑榆非晚:flexed_biceps:; 山有木兮木有枝,心悦君兮君在哪?:grinning_squinting_face:'

然后用正则匹配掉就OK了,就介么简单

欢迎大家顺手看这篇博客:
不务正业篇:让你的博客更加可爱(1)——添加emoji表情

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值