python爬取内容乱码_Python爬取中文页面的时候出现的乱码问题(续)

最新推荐文章于 2023-07-04 13:58:16 发布

weixin_39761573

最新推荐文章于 2023-07-04 13:58:16 发布

阅读量196

点赞数

文章标签： python爬取内容乱码

我在上一篇博客中说明了在爬取数据的时候，把数据写入到文件的乱码问题

在这一篇里面我做一个总结：

1、首先应该看一个案例

我把数据写在.py文件中：

#coding:utf-8

s = 'hehe测试中文字符'

ss = u'hehe测试中文字符'

uu = s.decode('utf-8')

print s #输出乱码

print uu #正常

print ss #正常

这里需要对中文数据进行编码，输出正常

2、我们针对爬取回来的数据

在读取页面数据的时候已经对其编码 response.read().decode('utf-8')

在把数据写入到数据库的时候，只需要把数据库的连接指定为 utf-8 就可以

MySQLdb.Connect(host=v_host,port=int(v_port),user=v_user,passwd=v_passwd,db=v_db,charset='utf8')

3、可以直接把读取来的数据直接写入到数据库中，不会出现乱码

py文件的其他地方不需要在进行其他的编码，仅仅是在读取response里面的数据的时候进行编码一次

4、在设置Mysql编码的时候切记是：utf8，中间没有横杠

不然会报错：_mysql_exceptions.OperationalError: (2019, “Can’t initialize character set utf-8

weixin_39761573

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬取内容乱码_Python爬取中文页面的时候出现的乱码问题(续)

我在上一篇博客中说明了在爬取数据的时候，把数据写入到文件的乱码问题在这一篇里面我做一个总结：1、首先应该看一个案例我把数据写在.py文件中：#coding:utf-8s = 'hehe测试中文字符'ss = u'hehe测试中文字符'uu = s.decode('utf-8')print s #输出乱码print uu #正常print ss #正常这里需要对中文数据进行编码，输出正常2、我...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。