小结一下我困惑Python字符编码

一下结论不是一定准确,是我自己通过实验理解的结果。如有错误欢迎指正。


# coding:utf8

这种写法是针对源文件中的非ascii字符的编码方式

例如:

写s = u"中文",会以utf8将源文件中的字符串解码成unicode。相当于s = f.read(); s = s.decode('utf8')

若代码中写 s = "中文",不会对字符串进行编码,相当于s = f.read()


sys.setdefaultencoding()

这个配置是用于在 s.encode() s.decode() 不带参数时的默认参数。

例如:print u 会事先将unicode字符串转换为str,再输出到控制台。 会调用默认参数的u.encode() 。 

如果默认sys.getdefaultencoding()是ascii,而u当中又含有非ascii字符,则会抛出异常。UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)


print 输出

Python的print语句会将字符串转换为str进行输出,

也就是说 print s 这个语句,如果s本身就是str类型,则直接输出,若s是unicode类型,则会以默认编码调用s.encode() 然后进行输出。


对于windows来说,控制台中显示中文是以gbk编码的,也就是说print一个utf8编码的str会看到一串乱码。



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值