Python基础：编码问题

最新推荐文章于 2024-08-22 14:51:10 发布

菜小白—NLP

最新推荐文章于 2024-08-22 14:51:10 发布

阅读量451

点赞数

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/ACM_hades/article/details/104900160

版权

Python 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

编码的发展过程：

计算机只能处理数字，如果要处理文本，就必须先把文本转换为数字才能处理。文本转化为数子就叫编码，即用一个数字去唯一表示一个字符。
ASCII编码： 由于计算机是美国人发明的，因此，最早只有127个字符被编码到计算机里，也就是大小写英文字母、数字和一些符号，这个编码被称为ASCII编码，所以最早的计算机在设计时采用8个比特（bit）（一个字节（byte））来编码每个字符，一个字节能表示的最大的整数就是255，所有最多编码255个字符。比如大写字母A的编码是65，小写字母z的编码是122。
GB2312编码：由于中文的汉字个数肯定大于255，所有用一个字节来编码中文肯定是不够的，至少需要两个字节，而且还不能和ASCII编码冲突，所以，中国制定了GB2312编码，用来把中文编进去。
全世界有上百种语言，每个国家都有自己的编码规则，比如日本把日文编到Shift_JIS里，韩国把韩文编到Euc-kr里，就会不可避免地出现冲突。
编码冲突：在每个编码的规则中要求每个字符与一个数字一一对应。如果在两套或多套编码规则中他们将不同的字符对应到了同一个数字上，这样就会产生编码冲突，在多语言混合的文本中，显示出来会有乱码。
Unicode编码：
- 解决编码冲突问题最简单的方法就是将世界上所有的语言进行统一编码，Unicode应运而生，Unicode把所有语言都统一到一套编码里，这样就不会再有乱码问题了。
- Unicode将最常用的字符用2个字节进行编码(一般Unicode编码为两个字节)，对非常偏僻的字符，就需要4个字节进行编码。现代操作系统和大多数编程语言都直接支持Unicode。
UTF-8编码：
- Unicode编码一般用两个字节编码，ASCII编码用一个字节进行编码，对于同一个字符将其ASCII编码扩展到Unicode编码，只需要在前面加一个字节的0；这样如果一个文档全是英文，用Unicode编码比ASCII编码需要多一倍的存储空间，在存储和传输上就十分不划算。于是就产生了**“可变长编码”的UTF-8编码**
- UTF-8编码把一个Unicode字符编码成1~6个字节，通常用的英文字母被编码成1个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4~6个字节。如果你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间
ASCII编码、Unicode编码和UTF-8编码的关系图：
计算机系统中编码的转过程：
- 在计算机内存中，统一使用Unicode编码，当需要保存到硬盘或者需要传输的时候，就转换为UTF-8编码。
- 用记事本编辑的时候，从文件读取的UTF-8字符被转换为Unicode字符到内存里，编辑完成后，保存的时候再把Unicode转换为UTF-8保存到文件：

Python3中字符串的编码问题

Python3中字符串是以Unicode编码的，也就是说，Python的字符串支持多语言
Python3的字符串类型是 $s t r$ ，在内存中以Unicode编码表示，一个字符对应若干个字节。如果要在网络上传输，或者保存到磁盘上，就需要把 $s t r$ 变为以字节为单位的 $b y t e s$ 类型(字节类型)。

str="中国:china"
print(len(str))#求字符个数
print(len(str.encode("gbk")))#Unicode转化为gbk编码的bytes类型，再求字节数
print(len(str.encode("utf-8")))#Unicode转化为utf-8编码的bytes类型，再求字节数

Python对bytes类型的数据用带b前缀的单引号或双引号表示，用decode()方法，可以把bytes变为str：

str1="中国:china"
str2=b'\xe4\xb8\xad\xe5\x9b\xbd:china'  #引号中间不能直接写中文，必须是一个字节的值
str1_b=str1.encode()#默认是utf-8编码
print(str1_b)
print(str2.decode('utf-8')) #将bytes类型解码为Unicode编码

Python提供了ord()函数获取字符的整数表示，chr()函数把编码整数转换为对应的字符
由于Python源代码也是一个文本文件，所以，当你的源代码中包含中文的时候，在保存源代码时，就需要务必指定保存为UTF-8编码。通过确保文本编辑器正在使用UTF-8 without BOM编码：
当Python解释器读取源代码时，为了让它按UTF-8编码读取，我们通常在文件开头写上这两行：

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

第一行注释是为了告诉Linux/OS X系统，这是一个Python可执行程序，Windows系统会忽略这个注释；
第二行注释是为了告诉Python解释器，按照UTF-8编码读取源代码，否则，你在源代码中写的中文输出可能会有乱码。

菜小白—NLP

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录