python3的requests类抓取中文页面出现乱码
搜索了一下相关的说明,发现 requests 只会简单地从服务器返回的响应头的 Content-Type 去获取编码,如果有 Charset 才能正确识别编码,否则就使用默认的 ISO-8859-1,这样一来某些不规范的服务器返回就必然乱码了。
例如:通过浏览器content-type选项中只有text/html,而没有charset,下面两张图是不同两个网站对比情况:
解决方法:
转载
2016-06-15 10:40:25 ·
5928 阅读 ·
0 评论