在NLP预处理字符串时,可能会需要删除emoji表情,最简单的就是使用Python的emoji库过滤,举一例子大家就懂了:
比如字符串:
>>> my_decri_str = '我年华虚度,空有一身疲倦😭; 东隅已逝,桑榆非晚💪; 山有木兮木有枝,心悦君兮君在哪?😆'
>>> # 我只是为了能凑能用分号的条件,随便找了俩句话
>>> print(my_decri_str)
我年华虚度,空有一身疲倦😭; 东隅已逝,桑榆非晚💪; 山有木兮木有枝,心悦君兮君在哪?😆
终端安装emoji包:
pip install emoji -i https://mirror.baidu.com/pypi/simple # 使用百度的源
>>> import emoji
>>> result= emoji.demojize(my_decri_str )
>>> print(result)
'我年华虚度,空有一身疲倦:loudly_crying_face:; 东隅已逝,桑榆非晚:flexed_biceps:; 山有木兮木有枝,心悦君兮君在哪?:grinning_squinting_face:'
然后用正则匹配掉就OK了,就介么简单
欢迎大家顺手看这篇博客:
不务正业篇:让你的博客更加可爱(1)——添加emoji表情