winpython是个坑_Python爬虫|Windows编码的一个暗坑

最新推荐文章于 2021-07-10 16:16:51 发布

weixin_39960920

最新推荐文章于 2021-07-10 16:16:51 发布

阅读量128

点赞数

文章标签： winpython是个坑

一个道歉：

很抱歉可能在最近一个月之内我们的专栏更新速度都会非常慢，等我们进度赶完了继续更新，恳请大家原谅。

--------我的学弟在学习@xlzd 的爬虫第三讲(http://xlzd.me/2015/12/16/python-crawler-03)的时候遇到了无法解决的编码问题，几天都没有解决。最后我试验了几次以后才找到原因。这篇专栏作为一个note记录一下这个问题。之后会有专门的专栏讲坑爹的Python的编码问题，特别是Windows下的暗坑。

一个补充：感谢@vczh 轮子哥提醒，这里漏写了一个步骤，在以下步骤之前，我们已经可以通过requests.get返回的Response对象(响应报文)的encoding属性得知，本HTML的编码为UTF-8，使用方法详见：https://zhuanlan.zhihu.com/p/21394571?refer=xmucpp的第二部分。另，在Python里面通用的检查编码的模块是charset(https://pypi.python.org/pypi/charset/1.0.1)。

原博客相关代码如下：

import codecs

def main():

url = DOWNLOAD_URL

with codecs.open('movies', 'wb', encoding='utf-8') as fp:

while url:

html = download_page(url)

movies, url = parse_html(html)

fp.write(u'{movies}\n'.format(movies='\n'.join(movies)))

如果换成print，就会报编码错误。很多初学者都容易被Windows下这个暗坑坑住。这里的主要原因是，Windows下对中文的编码默认是GBK。明白了这个坑，我们就可以对应设计解决方案了。处理方法有几种：

1. 对需要输出的内容编码。

如果直接输出：