python3爬虫中文乱码问题

python3爬虫中文乱码问题

一开始直接输出获取到的数据,显示为b'<title>\xc3\xc0\xb9\xc9\xca\xb5\xca\xb1\xd0\xd0\xc7\xe9_\xd0\xc2\xc0\xcb\xb2\xc6\xbe\xad_\xd0\xc2\xc0\xcb\xcd\xf8</title>\n'

看了下网页内容的头部,发现编码格式应该为gb2312

b'<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />\n'

根据搜索到的编码方法修改data,

data = unicode(data,'gb2312')

发现报错提示没有unicode这个语法,继续搜,原来是python3重命名其为str
在这里插入图片描述
ok,unicode改为str

data = str(data,'gb2312')

显示正常

<title>美股实时行情_新浪财经_新浪网</title>

中间尝试了别的方法,比如

data.decode('unicode-escape')

直接乱码

<title>ÃÀ¹ÉʵʱÐÐÇé_ÐÂÀ˲ƾ­_ÐÂÀËÍø</title>

原来

decode(‘unicode-escape’)

是用于unicode反向解码的,unicode编码格式如下

\\u003C\\u0066\\u0072\\u006F\\u006D\\u003E'

总结:
1、python2和python3很多模块合并,重命名,难以区分,所以网上找到的代码还是不要随便套用,版本声明的重要性啊
2、编码格式确实比较困扰,多接触发现规律一直在,以前自己没有仔细甄别吧在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值