关于python的命令行输出中文

最新推荐文章于 2023-05-30 04:31:45 发布

MrJerryK

最新推荐文章于 2023-05-30 04:31:45 发布

阅读量2.9k

点赞数

文章标签： python

本文链接：https://blog.csdn.net/jinyif/article/details/54375896

版权

这几天在尝试用python抓取网页内容，以及模拟浏览器行为。

当我抓取一个包含中文的网页时，在命令行内输出总是出现乱码，但是当输出到文件中后显示正常。网页是utf-8编码的。

经过一番查询后，发现命令行使用的编码方式是mbcs( print sys.getfilesystemencoding() )。

什么是MBCS编码呢？

MBCS（Multi-Byte Chactacter System（Set)）

多字节字符系统或者字符集，基于ANSI编码的原理上，对一个字符的表示实际上无法确定他需要占用几个字节的，只能从编码本身来区分和解释。因此计算机在存储的时候，就是采用多字节存储的形式。也就是你需要几个字节我给你放几个字节，比如A我给你放一个字节，比如"中“，我就给你放两个字节，这样的字符表示形式就是MBCS。

在基于GBK的windows中，不会超过2个字节，所以windows这种表示形式有叫做DBCS（Double-Byte Chactacter System），其实算是MBCS的一个特例。

C语言默认存放字符串就是用的MBCS格式。

所以，想要在命令行输出正确的文字，需要对你抓取到的东西进行解码后重新编码。例如下面

print soup.prettify('utf-8').decode('utf8').encode('mbcs')

这下，命令行就能正确得输出中文啦。