python爬网页乱码

最新推荐文章于 2023-11-07 17:12:44 发布

Orange_Soda

最新推荐文章于 2023-11-07 17:12:44 发布

阅读量1.6k

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/qq_28711703/article/details/48050551

版权

python 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

最近搞爬虫网页经常乱码，查了很多终于整出来了。

关于解码编码decode和encode

首先要搞清楚，字符串在Python内部的表示是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。decode的作用是将其他编码的字符串转换成unicode编码，如str1.decode('gb2312')，表示将gb2312编码的字符串转换成unicode编码。encode的作用是将unicode编码转换成其他编码的字符串，如str2.encode('gb2312')，表示将unicode编码的字符串转换成gb2312编码。在某些IDE中，字符串的输出总是出现乱码，甚至错误，其实是由于IDE的结果输出控制台自身不能显示字符串的编码，而不是程序本身的问题。

eg:

#coding:utf-8
import urllib2
import os
req = urllib2.Request("http://www.cnblogs.com/linjiqin/p/3674825.html")
res = urllib2.urlopen(req)
html = res.read().decode('utf-8').encode('gbk')
res.close()
print html
os.system('pause')

搞清网页编码：例子是utf-8

python字符串编码是Unicode

系统打印编码是jbk

首先将网页编码解码成python字符串编码，再讲python字符串编码编码成系统编码

所以核心是

html = res.read().decode('utf-8').encode('gbk')

结束