python中字符编码的总结和对比_python的str，unicode对象的encode和decode方法, Python中字符编码的总结和对比bytes和str...

最新推荐文章于 2024-05-06 10:30:00 发布

weixin_39618456

最新推荐文章于 2024-05-06 10:30:00 发布

阅读量132

点赞数

文章标签： python中字符编码的总结和对比

本文链接：https://blog.csdn.net/weixin_39618456/article/details/112936195

版权

python_2.x_unicode_to_str.py

python_2.x_str_to_unicode.py

python_3.x_str_to_bytes.py

python_3.x_bytes_to_str.py

此文之前

在读此文之前，你需要了解一些基本的前提知识：

1. Python的两种版本，Python 2.x和Python 3.x，的划分，不了解的去参考：

2.对于各种字符编码要有个基本的了解

比如：

通用的Unicode

Unicode的最常见的一种实现方式，UTF-8

Windows中的默认编码GBK

等等，有个基本的概念。

如果不了解，可以参考相关内容：

3.关于Python文件中，声明当前文件所使用何种编码，要清楚其含义

不了解的，去看：

Python中，不论是Python 2.x还是Python 3.x中，总体上说，字符都只有2大类：

一类是通用的Unicode字符；

另一类是，(unicode被编码后的)，某种编码类型的字符，比如UTF-8，GBK等等类型的字符；

但是呢：

Python 2.x，字符编码方面，设计的不好，导致经常，非常容易，出现一些字符编码解码方面的错误。

具体常见错误及解决办法，可参考：

Python 2.x的str和unicode和Python 3.x的bytes和str的详细对比

下面来简单介绍一下，Python 2.x和Python 3.x在字符编码方面的知识：

关键字

含义

具体的写法

两者之间如何互换

Python 2.x

str

某种编码(UTF-8，GBK等)类型的字符串

"python 2.x中，普通的，用引号括起来的字符，就是str；此时字符串的编码类型，对应着你的Python文件本身保存为何种编码有关，最常见的Windows平台中，默认用的是GBK"

str->unicode:

【核心代码逻辑】

1.确保自己知道对应字符串，是什么编码的

2.然后使用yourStr.decode("yourKnownEncoding")

去解码为对应的unicode字符串

注：

yourKnownEncoding为你自己所已知的，该字符串的编码类型

3.然后继续你想要的各种处理

【完整代码】

参见下面的：python_2.x_str_to_unicode.py

unicode

Unicode类型的字符串

有两种写法：

前缀加u

u"Python 2.x中，在普通字符串，加上前缀u后，就表示字符串是Unicode类型了"

用unicode()强制转换：

unicode("Python 2.x中，在普通字符串，加上前缀u后，就表示字符串是Unicode类型了")

此种写法的前提是，python文件中指定了对应的编码类型；

并且对应的python文件的确是以该编码方式保存的

unicode->str:

【核心代码逻辑】

1.先声明，或已获得了对应的，Unicode字符

2.然后用

unicodeVariable.decode("encodingType")

去编码为对应的encodingType类型的字符串。

其中encodingType常见的有UTF-8，GBK等等；

注：

将Unicode转换为什么编码，因实际情况而异；

即具体编码为什么类型，和你的实际使用的需求和目的有关；

3.然后再去做后续的，你自己想要的，任何的处理

包括将其保存到对应的文件，传递给后面的代码处理等。

注：

虽然上述说如果转换为GBK，用于在Windows的cmd中输出，只是为了演示的目的；

实际上输出，尤其是打印Unicode类型的字符的时候，Python系统会自动将Unicode编码为，与当前输出终端，相同的编码，然后再显示的；此处此即自动把Unicode编码为cmd的GBK然后再显示。

【完整代码】

参见下面的：python_2.x_unicode_to_str.py

Python 3.x

bytes

某种编码(UTF-8，GBK等)类型的字节序列

普通字符串加上字母b作为前缀，就是表示bytes字符串了。

需要注意的是：

bytes，都是某种特定的编码的字符串

bytes，如果写上对应的值的话，那么只能直接写ASCII字符串，即只能写英文单词这种

而如果想要写中文汉字这种，需要写\xYY这种16进制的值的形式才可以

其中\xYY的值到底是多少，是你自己去通过相应的办法，将其编码为特定类型的字符所获得的

其中如何把字符串，转换为某种编码的bytes的值，可以参考下面的"str->bytes"中的代码

一般来说，我们在实际编程中，所遇到的是，你自己需要知道当前获得的字符串变量，是bytes，并且知道其是什么编码，基本上就可以了，然后就可以用后面介绍的bytesVariable.decode("specificEncoding")去解码为你需要的Unicode的str字符串了

bytes->str:

【核心代码逻辑】

1.如果你要写对应的bytes变量，那么需要加上前缀字母b；

注意：

不过要注意的是，只能写英文单词，而不能直接写中文等非ASCII的字符。

如果非要写非ASCII字符，那么只能自己想办法先将其转化为对应某种编码的byte，内部存储的内容，是对应的各个字节，打印出来的效果就是\xYY这种十六进制的值。

其中：

如果把对应的中文转换对特定编码的bytes的16进制值，可以参考下面的"str->bytes"的代码。

2.然后用

bytesVariable.decode("specificEncoding")

去解码为对应的str(即Unicode字符串)

其中：specificEncoding是该bytes的编码。

3.然后你就可以拿着Unicode的str，去做你想要的事情了

比如常见的打印出来看看。

【完整代码】

参见下面的：python_3.x_bytes_to_str.py

str

Unicode类型的字符串

Python 3.x中，直接输出的字符串(被单引号或双引号括起来的)，就已经是Unicode类型的str了。

当然，有一些前提：

Python文件开始已经声明对应的编码

Python文件本身的确是使用该编码保存的

两者的编码类型要一样(比如都是UTF-8或者都是GBK等)

这样Python解析器，才能正确的把你所输出字符串，解析为对应的unicode的str

str->bytes:

【核心代码逻辑】

1.默认写出的字符串，已经就是str，即Unicode，的类型了。

或者你之前已经获得了对应的unicode的str了。

注：当然，如果在Python文件中，需要满足下列条件：

A。Python文件开始已经声明对应的编码

B。Python文件本身的确是使用该编码保存的

C。两者的编码类型要一样(比如都是UTF-8或者都是GBK等)

2.然后调用

unicodeStr.encode("encodingType")

去编码为对应的字节序列bytes，

3.然后后续再进行相应的你所需要的处理

【完整代码】

参见下面的：python_3.x_str_to_bytes.py

python的str，unicode对象的encode和decode方法

python中的str对象其实就是"8-bit string" ，字节字符串，本质上类似java中的byte[]。

而python中的unicode对象应该才是等同于java中的String对象，或本质上是java的char[]。

对于

s="你好"

u=u"你好"

s="你好"

u=u"你好"

1. s.decode方法和u.encode方法是最常用的，

简单说来就是，python内部表示字符串用unicode(其实python内部的表示和真实的unicode是有点差别的，对我们几乎透明，可不考虑)，和人交互的时候用str对象。

s.decode -------->将s解码成unicode，参数指定的是s本来的编码方式。这个和unicode(s,encodename)是一样的。

u.encode -------->将unicode编码成str对象，参数指定使用的编码方式。

助记：decode to unicode from parameter

encode to parameter from unicode

只有decode方法和unicode构造函数可以得到unicode对象。

上述最常见的用途是比如这样的场景，我们在python源文件中指定使用编码cp936，

# coding=cp936或#-*- coding:cp936 -*-或#coding:cp936的方式(不写默认是ascii编码)

这样在源文件中的str对象就是cp936编码的，我们要把这个字符串传给一个需要保存成其他编码的地方(比如xml的utf-8,excel需要的utf-16)

通常这么写：

strobj.decode("cp936").encode("utf-16")

You

typically encode a unicode string whenever you need to use it for IO,

for instance transfer it over the network, or save it to a disk file.

To convert a string of bytes to a unicode string is known as decoding. Use unicode('...', encoding) or '...'.decode(encoding).

You typically decode a string of bytes whenever you receive string data from the network or from a disk file.

第一条已经写了不少，因为是最常用到的，基本不用怎么解释。我重点想说的是这第二条。

似乎有了unicode对象的encode方法和str的decode方法就足够了。奇怪的是，unicode也有decode，而str也有

encode，到底这两个是干什么的。

用处1

str本身已经是编码过的了，如果再encode很难想到有什么用(通常会出错的)

先解释下这个

str.encode(e) is the same as unicode(str).encode(e).

This is useful since code that expects Unicode strings should also work when it is passed

ASCII-encoded 8-bit strings(from Guido van Rossum)

python之父的这段话大概意思是说encode方法本来是被unicode调的，但如果不小心被作为str对象的方法调，并且这个str对象正好

是ascii编码的(ascii这一段和unicode是一样的)，也应该让他成功。这就是str.encode方法的一个用处(我觉得这个基本等于没用)

类似地，把光用ascii组成的unicode再decode一回是一样的道理，因为好像几乎任何编码里ascii都原样没变。因此这样的操作等于没做。

u"abc".decode("gb2312")和u"abc"是相等的。

用处2

非字符的编码集non-character-encoding-codecs，这些只在python中定义，离开python就没意义(这个来自python的官方文档)

并且也不是人类用的语言，呵呵。

比如

'\n'.encode('hex')=='0a'

u'\n'.encode('hex')=='0a'

'0a'.decode('hex')=='\n'

u'0a'.decode('hex')=='\n'

'\n'.encode('hex')=='0a'

u'\n'.encode('hex')=='0a'

'0a'.decode('hex')=='\n'

u'0a'.decode('hex')=='\n'

可见名为hex的编码可以讲字符表示(当然了，必须是ascii内的)和十六进制表示之间转换

另外还有很多好玩的，比如：base64通俗的讲是号称防君子不防小人的给邮件的编码，gzip大概是指压缩吧(这是我猜的)，rot13回转13等，不知者google之

关于这些，官方有个详细的表格，在http://docs.python.org/library/codecs.html中的Standard Encodings一节中，前一个表格是基于字符的编码，第二个表格

就是这里的非字符的编码。关于这些特殊编码，官方一句说明：

For the codecs listed below, the result in the “encoding” direction is always a byte string.

The result of the “decoding” direction is listed as operand type in the table.

encode的结果一定是一个byte的str，而decode的结果在表中operand一列。

参考

Converting Between Unicode and Plain Strings 在Unicode和普通字符串之间转换

http://wiki.woodpecker.org.cn/moin/PyCkBk-3-18

what’s the difference between encode/decode? (python 2.x)

http://stackoverflow.com/questions/447107/whats-the-difference-between-encode-decode-python-2-x

http://docs.python.org/library/codecs.html

编码声明的作用

请参考http://www.python.org/dev/peps/pep-0263/

声明源文件中将出现非ascii编码；

在高级的IDE中，IDE会将你的文件格式保存成你指定编码格式。

决定源码中类似于u'哈'这类声明的将'哈'解码成unicode所用的编码格式，也是一个比较容易让人迷惑的地方。

(java不需要声明的原因在于：java中默认是本地编码而py中默认是ascii，搞得python更易出错，

并且，java编译的时候还有个指定编码的参数encoding)

文件的编码格式决定了在该源文件中声明的字符串的编码格式，例如：

str = '哈哈'

print repr(str)

str = '哈哈'

print repr(str)

a.如果文件格式为utf-8，则str的值为：'\xe5\x93\x88\xe5\x93\x88'(哈哈的utf-8编码)

b.如果文件格式为gbk，则str的值为：'\xb9\xfe\xb9\xfe'(哈哈的gbk编码)

我的理解：文件编码格式保存后没有地方指明，只有靠聪明或笨的编辑器，编译器去猜。而声名就更精确一些。

让两者一致了总不会错。

其实好多其他语言或应用中也是类似的decode和encode概念，比如在java中String的涉及的编码转换及jdk中的工具native2ascii，

好像javascript也有这个，记不清楚了。

weixin_39618456

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python中字符编码的总结和对比_python的str，unicode对象的encode和decode方法, Python中字符编码的总结和对比bytes和str...

python_2.x_unicode_to_str.pypython_2.x_str_to_unicode.pypython_3.x_str_to_bytes.pypython_3.x_bytes_to_str.py此文之前在读此文之前，你需要了解一些基本的前提知识：1. Python的两种版本，Python 2.x和Python 3.x，的划分，不了解的去参考：2.对于各种字符编码要有个基本的了...
复制链接

扫一扫