python3爬虫中文乱码问题

最新推荐文章于 2024-05-22 20:26:52 发布

w.ang.jie

最新推荐文章于 2024-05-22 20:26:52 发布

阅读量2k

点赞数

分类专栏： python 文章标签： python3 中文乱码爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_32392597/article/details/95040778

版权

python 专栏收录该内容

28 篇文章 4 订阅

订阅专栏

python3爬虫中文乱码问题

一开始直接输出获取到的数据，显示为b'<title>\xc3\xc0\xb9\xc9\xca\xb5\xca\xb1\xd0\xd0\xc7\xe9_\xd0\xc2\xc0\xcb\xb2\xc6\xbe\xad_\xd0\xc2\xc0\xcb\xcd\xf8</title>\n'

看了下网页内容的头部，发现编码格式应该为gb2312

b'<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />\n'

根据搜索到的编码方法修改data，

data = unicode(data,'gb2312')

发现报错提示没有unicode这个语法，继续搜，原来是python3重命名其为str
在这里插入图片描述
ok，unicode改为str

data = str(data,'gb2312')

显示正常

<title>美股实时行情_新浪财经_新浪网</title>

中间尝试了别的方法，比如

data.decode('unicode-escape')

直接乱码

<title>ÃÀ¹ÉÊµÊ±ÐÐÇé_ÐÂÀË²Æ¾_ÐÂÀËÍø</title>

原来

decode(‘unicode-escape’)

是用于unicode反向解码的，unicode编码格式如下

\\u003C\\u0066\\u0072\\u006F\\u006D\\u003E'

总结：
1、python2和python3很多模块合并，重命名，难以区分，所以网上找到的代码还是不要随便套用，版本声明的重要性啊
2、编码格式确实比较困扰，多接触发现规律一直在，以前自己没有仔细甄别吧在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python3爬虫中文乱码问题

python3爬虫中文乱码问题一开始直接输出获取到的数据，显示为b'<title>\xc3\xc0\xb9\xc9\xca\xb5\xca\xb1\xd0\xd0\xc7\xe9_\xd0\xc2\xc0\xcb\xb2\xc6\xbe\xad_\xd0\xc2\xc0\xcb\xcd\xf8</title>\n'看了下网页内容的头部，发现编码格式应该为gb2312b...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。