在进行爬取过程中会遇到 页面解析时为中文, 但是爬取下来的时候发现中文为乱码的情况,这种情况的产生实则是编码问题
以阳光问政 这个网站为例子,在页面上查看的数据如下图
而实际返回的则是诸如此类的乱码
所以我们应在解析的时候进行编码的转换,下面是实际的代码:
rsp = requests.get(url="http://wz.sun0769.com/index.php/question/questionTypetype=4&page=1", headers=headers)
rsp.encoding = 'GBK'
print(rsp.text)
处理后的返回结果如下图
其中“gbk" 可以根据不同网页的不同加密方式进行转换,还有“gb2312"等格式,具体情况具体分析