关于python的命令行输出中文

这几天在尝试用python抓取网页内容,以及模拟浏览器行为。

当我抓取一个包含中文的网页时,在命令行内输出总是出现乱码,但是当输出到文件中后显示正常。网页是utf-8编码的。

经过一番查询后,发现命令行使用的编码方式是mbcs( print sys.getfilesystemencoding() )。

什么是MBCS编码呢?

MBCS(Multi-Byte Chactacter System(Set))

  多字节字符系统或者字符集,基于ANSI编码的原理上,对一个字符的表示实际上无法确定他需要占用几个字节的,只能从编码本身来区分和解释。因此计算机在存储的时候,就是采用多字节存储的形式。也就是你需要几个字节我给你放几个字节,比如A我给你放一个字节,比如"中“,我就给你放两个字节,这样的字符表示形式就是MBCS。

在基于GBK的windows中,不会超过2个字节,所以windows这种表示形式有叫做DBCS(Double-Byte Chactacter System),其实算是MBCS的一个特例。

C语言默认存放字符串就是用的MBCS格式。

所以,想要在命令行输出正确的文字,需要对你抓取到的东西进行解码后重新编码。例如下面

print soup.prettify('utf-8').decode('utf8').encode('mbcs')

这下,命令行就能正确得输出中文啦。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值