这几天在尝试用python抓取网页内容,以及模拟浏览器行为。
当我抓取一个包含中文的网页时,在命令行内输出总是出现乱码,但是当输出到文件中后显示正常。网页是utf-8编码的。
经过一番查询后,发现命令行使用的编码方式是mbcs( print sys.getfilesystemencoding() )。
什么是MBCS编码呢?
MBCS(Multi-Byte Chactacter System(Set))
多字节字符系统或者字符集,基于ANSI编码的原理上,对一个字符的表示实际上无法确定他需要占用几个字节的,只能从编码本身来区分和解释。因此计算机在存储的时候,就是采用多字节存储的形式。也就是你需要几个字节我给你放几个字节,比如A我给你放一个字节,比如"中“,我就给你放两个字节,这样的字符表示形式就是MBCS。
在基于GBK的windows中,不会超过2个字节,所以windows这种表示形式有叫做DBCS(Double-Byte Chactacter System),其实算是MBCS的一个特例。
C语言默认存放字符串就是用的MBCS格式。
所以,想要在命令行输出正确的文字,需要对你抓取到的东西进行解码后重新编码。例如下面
print soup.prettify('utf-8').decode('utf8').encode('mbcs')这下,命令行就能正确得输出中文啦。