mysql入汉字报错 xE7_Python2爬虫获取的数据存储到MySQL中时报错"Incorrect string value: '\\xE6\\x96\\xB0\\xE9\\x97\\xBB' f...

寒夜剑鸣

于 2021-02-27 20:03:48 发布

阅读量2.4k

点赞数

文章标签： mysql入汉字报错 xE7

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35894622/article/details/114830993

版权

当使用Python2爬虫抓取数据并存储到MySQL时，遇到错误：Incorrect string value。原因是MySQL的utf-8不支持4字节编码，如表情符号。解决方案包括切换到utf8mb4字符集、过滤4字节UTF-8字符或转为GBK编码。

摘要由CSDN通过智能技术生成

由于一直使用python3进行编码，在使用Python2时，将爬虫数据连接数据库进行存储时，出现如上的报错，经查资料是数据库编码问题。

如下转自：http://www.cnblogs.com/liuzhixin/p/6274821.html 的博客，在此感谢博主的慷慨分享之情。

错误原因：我们可以看到错误提示中的字符0xF0 0x9F 0x98 0x84 ，这对应UTF-8编码格式中的4字节编码(UTF-8编码规范)。正常的汉字一般不会超过3个字节，为什么为出现4个字节呢？实际上是它对应的是智能手机输入法中的表情。那为什么会报错呢？因为mysql中的utf-8并不是真正意义上的utf-8，它只能存储1~3个字节长度的utf-8编码，如果想存储4个字节的必须用utf8mb4类型。不而要使用utf8mb4类型，首先要保证Mysql版本要不低于 MySQL 5.5.3。

常用字符集

ASCII：美国信息互换标准编码；英语和其他西欧语言；单字节编码，7位表示一个字符，共128字符。

GBK：双字节，汉字内码扩展规范；中日韩汉字、英文、数字；双字节编码；共收录了21003个汉字，GB2312的扩展。

UTF-8：Unicode标准的可变长度字符编码；Unicode标准(统一码)，业界统一标准，包括世界上数十种文字的系统；

UTF-8：使用一至三个字节为每个字符编码。

utf8mb4：存储四个字节，应用场景用于存储emoji表情，因为可以emoji表情四个字节。

utf8mb4&#

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
mysql入汉字报错 xE7_Python2爬虫获取的数据存储到MySQL中时报错"Incorrect string value: '\\xE6\\x96\\xB0\\xE9\\x97\\xBB' f...

由于一直使用python3进行编码，在使用Python2时，将爬虫数据连接数据库进行存储时，出现如上的报错，经查资料是数据库编码问题。如下转自：http://www.cnblogs.com/liuzhixin/p/6274821.html 的博客，在此感谢博主的慷慨分享之情。错误原因：我们可以看到错误提示中的字符0xF0 0x9F 0x98 0x84 ，这对应UTF-8编码格式中的4字节编码(U...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。