python乱码UnicodeEncodeError,很多时候是表情包作怪!python清除过滤emoji表情包神器!

做爬虫,经常回碰到乱码问题,经常性弄得头痛不已,看看这长长的一串串replace就无语


老是报错:

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-21: ordi
nal not in range(128)

生气!

后来发现,发现这问题的原因是:UTF-8编码中文的字节通常是3-4字节,Emoji表情是4字节,读写数据库稍不留神就报错!

哈哈哈哈哈哈发现问题就简单了,目前我们文本分析不需要分析表情包,我决定把它们都删了!


然后:emoji官网,https://pypi.org/project/emoji/(靠谱的emoji处理库)

安装 pip install emoji

官方例子如下:


清除命令:

emoji.demojize(str)

结果如下:



hhhhhh

success!

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值