python中字符编码的总结和对比_【转载】Python中字符编码的总结和对比:Python 2.x的str和unicode vs Python 3.x的bytes和str...

此文之前

在读此文之前,你需要了解一些基本的前提知识:

1. Python的两种版本,Python 2.x和Python 3.x,的划分,不了解的去参考:

2.对于各种字符编码要有个基本的了解

比如:

通用的Unicode

Unicode的最常见的一种实现方式,UTF-8

Windows中的默认编码GBK

等等,有个基本的概念。

如果不了解,可以参考相关内容:

3.关于Python文件中,声明当前文件所使用何种编码,要清楚其含义

不了解的,去看:

Python编解码简介

Python中,不论是Python 2.x还是Python 3.x中,总体上说,字符都只有2大类:

一类是通用的Unicode字符;

另一类是,(unicode被编码后的),某种编码类型的字符,比如UTF-8,GBK等等类型的字符;

但是呢:

Python 2.x,字符编码方面,设计的不好,导致经常,非常容易,出现一些字符编码解码方面的错误。

具体常见错误及解决办法,可参考:

而:

Python 3.x中,对于字符编解码方面的设计,的确先进和简洁多了,在使用过程中,也就很少再出现这类编码解码方面的错误了。

下面,就来对比一下:

Python 2.x的str和unicode和Python 3.x的bytes和str的详细对比

下面来简单介绍一下,Python 2.x和Python 3.x在字符编码方面的知识:

关键字

含义

具体的写法

两者之间如何互换

Python 2.x

str

某种编码(UTF-8,GBK等)类型的字符串

"python 2.x中,普通的,用引号括起来的字符,就是str;此时字符串的编码类型,对应着你的Python文件本身保存为何种编码有关,最常见的Windows平台中,默认用的是GBK"

str->unicode:

【核心代码逻辑】

1.确保自己知道对应字符串,是什么编码的

2.然后使用yourStr.decode("yourKnownEncoding")

去解码为对应的unicode字符串

注:

yourKnownEncoding为你自己所已知的,该字符串的编码类型

3.然后继续你想要的各种处理

【完整代码】

参见下面的:python_2.x_str_to_unicode.py

unicode

Unicode类型的字符串

有两种写法:

前缀加u

u"Python 2.x中,在普通字符串,加上前缀u后,就表示字符串是Unicode类型了"

用unicode()强制转换:

unicode("Python 2.x中,在普通字符串,加上前缀u后,就表示字符串是Unicode类型了")

此种写法的前提是,python文件中指定了对应的编码类型;

并且对应的python文件的确是以该编码方式保存的

unicode->str:

【核心代码逻辑】

1.先声明,或已获得了对应的,Unicode字符

2.然后用

unicodeVariable.decode("encodingType")

去编码为对应的encodingType类型的字符串。

其中encodingType常见的有UTF-8,GBK等等;

注:

将Unicode转换为什么编码,因实际情况而异;

即具体编码为什么类型,和你的实际使用的需求和目的有关;

3.然后再去做后续的,你自己想要的,任何的处理

包括将其保存到对应的文件,传递给后面的代码处理等。

注:

虽然上述说如果转换为GBK,用于在Windows的cmd中输出,只是为了演示的目的;

实际上输出,尤其是打印Unicode类型的字符的时候,Python系统会自动将Unicode编码为,与当前输出终端,相同的编码,然后再显示的;此处此即自动把Unicode编码为cmd的GBK然后再显示。

【完整代码】

参见下面的:python_2.x_unicode_to_str.py

Python 3.x

bytes

某种编码(UTF-8,GBK等)类型的字节序列

普通字符串加上字母b作为前缀,就是表示bytes字符串了。

需要注意的是:

bytes,都是某种特定的编码的字符串

bytes,如果写上对应的值的话,那么只能直接写ASCII字符串,即只能写英文单词这种

而如果想要写中文汉字这种,需要写\xYY这种16进制的值的形式才可以

其中\xYY的值到底是多少,是你自己去通过相应的办法,将其编码为特定类型的字符所获得的

其中如何把字符串,转换为某种编码的bytes的值,可以参考下面的"str->bytes"中的代码

一般来说,我们在实际编程中,所遇到的是,你自己需要知道当前获得的字符串变量,是bytes,并且知道其是什么编码,基本上就可以了,然后就可以用后面介绍的bytesVariable.decode("specificEncoding")去解码为你需要的Unicode的str字符串了

bytes->str:

【核心代码逻辑】

1.如果你要写对应的bytes变量,那么需要加上前缀字母b;

注意:

不过要注意的是,只能写英文单词,而不能直接写中文等非ASCII的字符。

如果非要写非ASCII字符,那么只能自己想办法先将其转化为对应某种编码的byte,内部存储的内容,是对应的各个字节,打印出来的效果就是\xYY这种十六进制的值。

其中:

如果把对应的中文转换对特定编码的bytes的16进制值,可以参考下面的"str->bytes"的代码。

2.然后用

bytesVariable.decode("specificEncoding")

去解码为对应的str(即Unicode字符串)

其中:specificEncoding是该bytes的编码。

3.然后你就可以拿着Unicode的str,去做你想要的事情了

比如常见的打印出来看看。

【完整代码】

参见下面的:python_3.x_bytes_to_str.py

str

Unicode类型的字符串

Python 3.x中,直接输出的字符串(被单引号或双引号括起来的),就已经是Unicode类型的str了。

当然,有一些前提:

Python文件开始已经声明对应的编码

Python文件本身的确是使用该编码保存的

两者的编码类型要一样(比如都是UTF-8或者都是GBK等)

这样Python解析器,才能正确的把你所输出字符串,解析为对应的unicode的str

str->bytes:

【核心代码逻辑】

1.默认写出的字符串,已经就是str,即Unicode,的类型了。

或者你之前已经获得了对应的unicode的str了。

注:当然,如果在Python文件中,需要满足下列条件:

A。Python文件开始已经声明对应的编码

B。Python文件本身的确是使用该编码保存的

C。两者的编码类型要一样(比如都是UTF-8或者都是GBK等)

2.然后调用

unicodeStr.encode("encodingType")

去编码为对应的字节序列bytes,

3.然后后续再进行相应的你所需要的处理

【完整代码】

参见下面的:python_3.x_str_to_bytes.py

演示代码

1.下面是上面相关的字符串转换,所用的示例代码。

如下代码,分别在:

Python 2.7.2

Python 3.2.2

中测试通过。

2. 你可以把如下对应的代码,保存为对应的文件。

其中,需要注意对应的Python文件所使用的编码,需要和其声明的编码(UTF-8)一致。

换句话说,你要把代码保存到UTF-8编码的Python文件中。

其中:

对于如何确保文件本身是何种编码的,以及如何转换为所需的编码类型,不了解的,可以参考:

3.如果你实在对编码不熟悉,那么直接下载对应的文件吧(右击另存为):

python_2.x_unicode_to_str.py

python_2.x_str_to_unicode.py

python_3.x_str_to_bytes.py

python_3.x_bytes_to_str.py

更多内容

其他还有一些供参考的内容,感兴趣的自己去看:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值