python cmd 乱码解决

先看这段代码:

import httplib2


conn = httplib2.Http()
res,content = conn.request("http://www.baidu.com")


print content.decode('utf-8').encode('gbk')


这里我们先 print type(content)可知content是一个str,

str,是一个字节数组,这个字节数组表示的是对unicode对象编码(utf-8、gbk、cp936、GB2312等)后的存储的格式,看好了,这个str是经过

编码后的格式了,因为百度设置的字符编码格式是utf8,所以我们先要解码utf8,既content.decode('utf8'),这个时候它已经变成一个完整的unicode

字节流了,然后在将他encode('gbk'),cmd就可以正确解释他了。

这里还有一个问题


用http请求得来的内容的编码要看网页设置的charset字符编码,

比如content它始终是charset编码,

但是如果定义,str = '你好',把文件保存成gbk编码,那么str是gbk编码,把文件保存成gbk编码方式意味着该文件的字符在内存中的存储方式是

gbk,然而content是从对方那获取的,当然要看对方文件的编码方式。

但是content依旧是utf8编码。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值