python中字符编码的总结和对比_【总结】Python 2.x中常见字符编码和解码方面的错误及其解决办法...

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼

对于Python解析器

而Python解析器所干的事情,就是:

Python解析器,根据当前的所用的字符串编码类型

此字符串编码类型,是你自己所设置的

不论是在Python的IDLE中,还是Python文件中

都是你自己显示指定对应的编码类型的

当然你没显示的指定的话,那就用默认的配置

如果是Python的IDLE,如果你没修改defaultencoding,那么就使用默认的字符编码

可以通过sys.getdefaultencoding()而获得,比如此处获得是:ascii

idle sys.getdefaultencoding

如果是Python文件,如果你没声明文件编码,则使用默认的编码:UTF-8

常见的做法是指定为对应的UTF-8类型:# -*- coding: utf-8 -*-

相关内容,不了解的可参考:【整理】关于Python脚本开头两行的:#!/usr/bin/python和# -*- coding: utf-8 -*-的作用 – 指定文件编码类型

去执行你的Python代码

其中,很常见的几种动作是:

打印print对应的所获得的字符

对于字符串打印,Python的逻辑:

如果是Unicode字符串,则可以,自动地,编码为对应的终端所用编码,然后正确的显示出来

比如unicode的字符串,输出到windows的默认编码为GBK的cmd中,则Python可以自动将Unicode编码为GBK,然后输出到cmd中

个别特殊情况,也会出错:

当此unicode字符串中包含某特殊字符,而目标终端的编码**中,没有此字符,则很明显也是无法实现将Unicode编码为对应的特定编码的字符串,无法正确显示的

如果是某种编码类型的str,则需要该str的编码类型,和目标终端编码匹配

比如GBK的字符串,输出到windows的默认编码为GBK的cmd,则是可以正常输出的

此处后来经过代码测试,就发现一个有趣或者说诡异的问题,虽然我们python文件声明的UTF-8编码,但是实际上实际上是用GBK编码,而此时,文件中的字符串,很明显是用GBK存储的,所以,将此GBK字符,输出到GBK的cmd中,是可以正常输出的。即,此处字符串的类型,很明显只和文件所用的实际编码有关,而和文件所声明的代码无关。

如果是UTF-8的字符串,输出到windows的默认编码为GBK的cmd,就会出错

对相应的字符,进行编码(为某种特定类型的字符str),或解码(为对应的unicode类型的字符)

比如将当前的某种编码的字符串,解码为Unicode字符串

很明显,也是要保证,你字符串本身的编码和所指定的编码,两者之间要一致的

比如:decodedUnicode = someUtf8Str.decode("UTF-8")

而如果用这样的:decodedUnicode = someGbkStr.decode("UTF-8"),那就会出现错误

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值