python 字符串和decode()解码,encode()编码

公子清羽

于 2021-07-05 12:18:10 发布

阅读量292

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/weixin_42550871/article/details/118487114

版权

python 专栏收录该内容

57 篇文章 2 订阅

订阅专栏

计算机系统通用的字符编码工作方式：

计算机是有自己的工作区的，这个工作区被称为“内存”。数据在内存当中处理时，使用的格式是Unicode，统一标准。

在计算机内存中，计算机使用Unicode编码，当需要保存到硬盘或者传输数据的时候，就转换为字节编码，数据对象是不能保存和传输的，如常用的UTF-8编码。

用记事本编辑的时候，从文件读取的UTF-8字符被转换为Unicode字符到内存里，编辑完成后，保存的时候再把Unicode转换为UTF-8保存到文件。

所谓的编码，其实本质就是把str（字符串）类型的数据，利用不同的编码表，转换成bytes（字节）类型的数据。

在最新的Python 3版本中，字符串是以Unicode编码的，也就是说，Python的字符串支持多语言.

Python对bytes类型的数据用带b前缀的单引号或双引号表示：

x = b'ABC'
要注意区分'ABC'和b'ABC'，前者是str，后者虽然内容显示得和前者一样，但bytes的每个字符
都只占用一个字节。

以Unicode表示的str通过encode()方法可以编码为指定的bytes，例如：

>>> 'ABC'.encode('ascii')  #把字符串‘ABC’转换为ascii格式的字节编码
b'ABC'
>>> '中文'.encode('utf-8') # 把字符串”中文“转换为utf-8格式的字节编码
b'\xe4\xb8\xad\xe6\x96\x87'
>>> '中文'.encode('ascii')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)
纯英文的str可以用ASCII编码为bytes，内容是一样的，含有中文的str可以用UTF-8编码为bytes。
含有中文的str无法用ASCII编码，因为中文编码的范围超过了ASCII编码的范围，Python会报错。

import sys
'''
*首先要搞清楚，字符串在Python内部的表示是unicode编码，因此，在做编码转换时，通常需要
以unicode作为中间编码，
即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。
decode的作用是将其他编码的字符串转换成unicode编码，
如str1.decode('gb2312')，表示将gb2312编码的字符串str1转换成unicode编码。
encode的作用是将unicode编码转换成其他编码的字符串，
如str2.encode('gb2312')，表示将unicode编码的字符串str2转换成gb2312编码。
总得意思:想要将其他的编码转换成utf-8必须先将其解码成unicode然后重新编码成utf-8,
它是以unicode为转换媒介的
如：s='中文'
如果是在utf8的文件中，该字符串就是utf8编码，如果是在gb2312的文件中，则其编码为gb2312。
这种情况下，要进行编码转换，都需要先用
decode方法将其转换成unicode编码，再使用encode方法将其转换成其他编码。
通常，在没有指定特定的编码方式时，都是使用的系统默认编码创建的代码文件。
如下：
s.decode('utf-8').encode('utf-8')
decode():是解码
encode()是编码
isinstance(s,unicode):判断s是否是unicode编码，如果是就返回true,否则返回false*
在 Python3 中使用 str 来代替 Python2 中的 unicode

'''
'''
s='中文'
s=s.decode('utf-8')   #将utf-8编码的解码成unicode
print isinstance(s,unicode)   #此时输出的就是True
s=s.encode('utf-8')           #又将unicode码编码成utf-8
print isinstance(s,unicode)   #此时输出的就是False
'''
print(sys.getdefaultencoding()) #获取系统默认的编码

s='中文'
if isinstance(s, str):
    #如果是unicode就直接编码不需要解码,在 Python3 中使用 str 来代替 Python2 中的 unicode.
    print (s.encode('utf-8'))
else:
    print (s.decode('utf-8').encode('gb2312'))

print(sys.getdefaultencoding())    #获取系统默认的编码

打印结果：

/Library/Frameworks/Python.framework/Versions/3.7/bin/python3 /Users/shimo/PycharmProjects/lovetest/testDemo/test_03.py
utf-8
b'\xe4\xb8\xad\xe6\x96\x87'
utf-8

Process finished with exit code 0

公子清羽

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 字符串和decode()解码,encode()编码

计算机系统通用的字符编码工作方式：计算机是有自己的工作区的，这个工作区被称为“内存”。数据在内存当中处理时，使用的格式是Unicode，统一标准。在计算机内存中，计算机使用Unicode编码，当需要保存到硬盘或者需要传输的时候，就转换为UTF-8编码。用记事本编辑的时候，从文件读取的UTF-8字符被转换为Unicode字符到内存里，编辑完成后，保存的时候再把Unicode转换为UTF-8保存到文件。所谓的编码，其实本质就是把str（字符串）类型的数据，利用不同的编码表，转换成bytes（..
复制链接

扫一扫

专栏目录