编码以及Python中的编码

最新推荐文章于 2023-03-20 23:04:37 发布

海狸_hlz

最新推荐文章于 2023-03-20 23:04:37 发布

阅读量626

点赞数

分类专栏： # Python用法详解文章标签： python

本文链接：https://blog.csdn.net/qq_33410995/article/details/107497718

版权

本文详细介绍了编码的历史，从ASCII、ISO-8859-1到Unicode，再到解决中文问题的GB系列编码和UTF-8。在Python中，字符串以Unicode编码，但在传输或存储时通常会转为UTF-8。文章还探讨了Python中的编码问题，包括如何在Python中处理不同编码的字符串。

摘要由CSDN通过智能技术生成

编码

不管是哪种语言，在学习的时候，只要涉及到中文，多多少少都会遇到一些编码问题。然而，说实话，作为一个英语水平没有那么专业的中国人，中文是必不可少的。所以，了解编码以及解码就变得非常重要。下面是从各个资料整合并且亲自动手尝试的编码介绍。

各种编码格式的发展历程

编码有很多种，计算机最初是在美国等国家发明的所以表示字符只有简单的几个字母只要对字母进行编码就好我们标准码 iso-8859-1 这就是一个标准。
但是后来计算机普及了于是就中国要使用计算机了但是机器不认得中文，于是就有了国际码。 gbk gb2312都是这类。两个其实一个，一个是标准（发布的代号），一个是简称。后来多了个阿拉伯语、日语、韩语…所以就出来统一编码unicode。
然而，unicode虽然统一了全世界字符的二进制编码，但没有规定如何存储啊，亲。x86和amd体系结构的电脑小端序和大端序都分不清，别提计算机如何识别到底是unicode还是acsii了。如果Unicode统一规定，每个符号用三个或四个字节表示，那么每个英文字母前都必然有二到三个字节是0，文本文件的大小会因此大出二三倍，这对于存储来说是极大的浪费。这样导致一个后果：出现了Unicode的多种存储方式。
互联网的兴起，网页上要显示各种字符，必须统一啊，亲。utf-8就是Unicode最重要的实现方式之一。另外还有utf-16、utf-32等。UTF-8不是固定字长编码的，而是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。这是种比较巧妙的设计，如果一个字节的第一位是0，则这个字节单独就是一个字符；如果第一位是1，则连续有多少个1，就表示当前字符占用多少个字节。

原始的始祖ASCII

我们需要了解的最早编码是ASCII码。它用7个二进制位来表示，由于那个时期生产的大多数计算机使用8位大小的字节，因此用户不仅可以存放所有可能的ASCII字符，而且有整整一位空余下来。如果你技艺高超，可以将该位用做自己离奇的目的：WordStar中那个发暗的灯泡实际上设置这个高位，以指示一个单词中的最后一个字母，同时这也宣示了WordStar只能用于英语文本。
　　由于字节有多达8位的空间，因此许多人在想：“呀！我们可以把128_{255之间的编码用做个人的应用目的。”问题在于，同时产生这种想法的人相当多，而且在128}255之间的各个位置上应该存放什么这一问题上，真是仁者见仁智者见智。事实上，只要人们开始在美国以外的地方购买计算机，那么各种各样的不同OEM字符集都会进入规划设计行列，并且各人都会根据自己的需要使用高位的128个字符。如此一来，甚至在同语种的文档之间就不容易实现互换。 ASCII可被扩展，最优秀的扩展方案是ISO 8859-1，通常称之为Latin-1。Latin-1包括了足够的附加字符集来写基本的西欧语言。
最后，这个人人参与的OEM终于以ANSI标准的形式形成文件。在ANSI标准中，每个人都认同如何使用低端的128个编码，这与ASCII相当一致。不过，根据所在国籍的不同，处理编码128以上的字符有许多不同的方式。这些不同的系统称为代码页。
　　同时，甚至更为令人头疼的事情正在逐步上演，亚洲国家的字符表有成千上万个字符，这样的字符表是用8位二进制无法表示的。该问题的解决通常有赖于称为DBCS（double byte character set，双字节字符集）的繁杂字符系统。
　　不过，仍然需要指出一点，多数人还是姑且认为一个字节就是一个字符，以及一个字符就是8个二进制位，并且只要确保不将字符串从一台计算机移植到另一台计算机，或者说一种以上的语言，那么这几乎总是可以凑合。当然，只要一进入Internet，从一台计算机向另一台计算机移植字符串就成为家常便饭了，而各种复杂状况也随之呈现出来。令人欣慰的是，Unicode随即问世了。

作用：表语英语及西欧语言。
位数：ASCII是用7位表示的，能表示128个字符；其扩展使用8位表示，表示256个字符。
范围：ASCII从00到7F，扩展从00到FF(ASCII码是十六进制表示)。

最早的英文起源的ISO-8859-1

属于单字节编码，最多能表示的字符范围是0-255，应用于英文系列。比如，字母’a’的编码为0x61=97。

很明显，iso8859-1编码表示的字符范围很窄，无法表示中文字符。但是，由于是单字节编码，和计算机最基础的表示单位一致，所以很多时候，仍旧使用iso8859-1编码来表示。而且在很多协议上，默认使用该编码。比如，虽然"中文"两个字不存在iso8859-1编码，以gb2312编码为例，应该是"d6d0 cec4"两个字符，使用iso8859-1编码的时候则将它拆开为4个字节来表示：“d6 d0 ce c4”（事实上，在进行存储的时候，也是以字节为单位处理的）。而如果是UTF编码，则是6个字节"e4 b8 ad e6 96 87"。很明显，这种表示方法还需要以另一种编码为基础。

作用：扩展ASCII，表示西欧、希腊语等。
位数：8位，
范围：从00到FF，兼容ASCII字符集。

解决中国人中文问题的GB系列-GB码字符集

全称是GB2312-80《信息交换用汉字编码字符集基本集》，1980年发布，是中文信息处理的国家标准，在大陆及海外使用简体中文的地区（如新加坡等）是强制使用的唯一中文编码。P-Windows3.2和苹果OS就是以GB2312为基本汉字编码， Windows 95/98则以GBK为基本汉字编码、但兼容支持GB2312。
双字节编码
范围：A1A1~FEFE
A1-A9：符号区，包含682个符号
B0-F7：汉字区，包含6763个汉字