我是在windows上vs写python爬虫时遇到的这个问题:
具体是打印一个页面内容时弹出的warn(程序默认utf-8编码),
但是同样的程序在linux系统却没有任何问题。
原因很明显就出来了:是编码的问题,而程序未出错,那就是windows和linux的环境下编码格式不同。
略微找了一下,实际上是我的windows的cmd默认编码是gbk。
查看方式很简单:cmd下输入以下命令
CHCP
CHCP是MD DOS中的命令,用来显示或设置活动
代码页编号的。
我的是显示
活动代码页: 936
即“简体中文”
而我们所需要的“utf-8”代码页为 65001
然后在cmd中设置
CHCP 65001
右键cmd窗口-属性,确认一下
可以看到字体中多了几项,其中有Lucida Console。
然后就爬取内容可以正常print了
Fly To:http://blog.useasp.net/archive/2012/04/24/how_to_use_UTF8_encoding_in_Windows_CMD.aspx