我所了解的GB2312、Unicode、GBK、UTF-8、BIG5等编码


小编一直对文字编码感到模糊,在学习、编程等过程中也经常会遇到与之相关的问题,无奈只能问百度。于是,为解决这一问题,小编花了一些时日了解和学习这些编码,整理出了这些编码的“性格特点”,“兴趣爱好”等等(文章中可能不全面,接受建议)。
有关文章参见: 趣谈unicode,ansi,utf-8,unicode big endian这些编码有什么区别
在这之前,我得先提一下 ASCII码(American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。它是现今 最通用单字节编码系统,并等同于国际标准ISO/IEC 646(ISO是国际字符集编码标准)。
在早期,人们用 8 位二进制来编码英文字母(最前面的一位是 0),也就是说,将英文字母和一些常用的字符和这 128 中二进制 0、1 串一 一对应起来,比如说 大写字母“A”所对应的二进制位“01000001”,转换为十六进制为 41。在美国,这 128 是够了,但其他国家也需要计算机,也需要编码表示自己国家的文字,于是在此基础上或是重新编码生出了很多的编码版本,本文只介绍与汉字有关的编码。
了解了ASCII码以后,我们就可以容易的了解以下内容,其实其他一系列编码一般离不开它。下面开始进入正题,介绍他们各自特点。

1. GB2312

“GB"是汉语拼英"guobiao”/"国标"的缩写,中国汉字编码标准,是一种不等长编码。GB系列从发展历程来看有很多,有GB7859,GB13000等等有简体中文也有繁体汉字,不细说,数GB2312最为基本和常用,它是对ASCII的中文扩展。约6763个简体汉字。

2. GBK

GBK是GB2312向GB13000过渡的一个中间产物,向下兼容GB2312的EUC编码,字汇(字符集)和GB13000相同,是GB2312的3倍,即包含GB2312的同时,又增加了近20000个新的汉字(简体、繁体),同时还包含BIG5(后面有说明)、Shift-JIS、KSC的字汇。在具体应用中,可以同时显示以上文字,但是除了GB2312,其他的需要进行转换。
顺便提一下,也许我们会经常看见 ANSI 码,其实就是GBK(在简体中文Windows系统中代表GBK,在繁体中文Windows系统中代表BIG5、在日文Windows系统中代表Shift-JIS)。

3. Unicode

为了统一世界上的所有文字而产生的多字节等长编码, Unicode为世界上的所有文字分配了一个唯一的数字符号,范围:0x000000-0x10FFFF(十六进制),有110多万,每个字符都有一个唯一的 Unicode 编号,这个编号一般写成 16 进制,在前面加上 U+。例如:“马”的 Unicode 是U+9A6C。
缺点:在制定时没有考虑,与任何一种现有的编码兼容(当然这是很难做到的,那时每个国家已经派生出许多版本),使得GBK与Unicode在汉字的内码编排上完全不一样,没有一种简单的算法可以把文本内容从Unicode和另一种编码进行交换,这种转换必须通过查表进行。

4. UTF-8

UTF-8的全称:Unicode Transformation Format。来源于Unicode,因为Unicode只是规定如何编码,那么就需要一种保存文字的格式协议,即UTF。
UTF-8使用变长字节表示,顾名思义,就是使用的字节数可变,这个变化是根据 Unicode 编号的大小有关,编号小的使用的字节就少,编号大的使用的字节就多。使用的字节个数从 1 到 4 个不等。其中英文字母用一个字节表示,汉字用3个字节表示。
下面是UTF-8编码的范围和对应的格式

编码范围编码格式
0x00-0x7F(0-127)0XXXXXXX
0x80-0x7FF(128-2047)110XXXXX 10XXXXXX
0x800-0xFFFF(2048-65535)1110XXXX 10XXXXXX 10XXXXXX
0x10000-0x10FFFF(65536以上)11110XXX 10XXXXXX 10XXXXXX 10XXXXXX

例如:

“杨”字的Unicode码是6768,6768在范围0x800-0xFFFF(2048-65535)内,所以用对应的编码格式:1110XXXX 10XXXXXX 10XXXXXX,把6768化为二进制表示为:0001101001110000,然后依次替换模板中的X,得:11100001 10101001 10110000,化为十六进制为:E1A9B0–>即“杨”字的UTF-8码。也就是“杨”字的Unicode码为\u6768,而UTF-8码为E1A9B0。
注意:

  • UTF包含全世界所有国家需要用到的字符(因为来自Unicode)
  • UTF的中文所占用字节比GBK占用字节多(UTF占3个,GBK占2个),所以如果中文出现比例高的文本,一般用GBK,而不是UTF-8,如中文操作系统,简体用的是GBK,繁体是BIG5。
  • UTF是针对Unicode编码的,如果GBK与UTF互转,需要用Unicode做中介。
  • Unicode、GB、BIG5等是对文字的编码规则,而UTF是对Unicode的存储(传输)规则,不是对文字的编码规则。
  • 并列、包含和兼容关系:
    BIG5、GB、Unicode是并列关系;
    GBK包括了GB2312的字集,编码也相同;(兼容)
    GBK包含BIG5的字集,但编码不一样;(包含)
    Unicode为世界650种语言进行统一编码,兼容ISO-8859-1
5. BIG5

BIG5是目前中国台湾和中国香港地区普遍使用的一种繁体汉字的编码标准,包括440个符号,一级汉字5401个,二级汉字7652个,共计13060个汉字,所谓一级汉字与二级汉字对应于常用汉字和不常用汉字
编码范围和区域描述如下表:

范围区域描述
8140-A0FE用户造字区
A140-A3BF符号区
A3C0-A3FE保留区
A440-C67E常用字区
C6A1-C8FE用户造字区
C940-F9D5次常用字区
F9D6-FEFE用户造字区
  • 5
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 可以使用 Python 的内置函数 `open()` 打开二进制文件。然后,可以使用内置的 `read()` 函数读取文件的内容。 为了能够正确地解码文件中的中文汉字,需要指定文件的编码格式。如果不确定文件的编码格式,可以使用 Python 的 `chardet` 库来检测编码格式。 下面是一个示例代码,假设文件名为 `file.bin`: ```python import chardet # 检测文件的编码格式 with open('file.bin', 'rb') as f: data = f.read() result = chardet.detect(data) encoding = result['encoding'] # 使用检测到的编码格式打开文件 with open('file.bin', 'r', encoding=encoding) as f: content = f.read() print(content) ``` 上面的代码首先使用 `chardet` 库检测文件的编码格式,然后使用检测到的编码格式来打开文件。最后,使用 `read()` 函数读取文件内容并打印出来。 ### 回答2: 使用Python打开二进制文件并打印不同编码格式的中文汉字可以通过以下步骤实现: 1. 首先,使用Python的内置open()函数以二进制模式打开文件,指定文件路径和打开模式。 2. 读取文件内容,使用read()函数将文件内容读取为字节流,存储在一个变量中。 3. 通过不同编码格式对字节流进行解码,并打印出中文汉字。 下面是一个示例代码: ```python # 打开二进制文件 with open('file.bin', 'rb') as file: # 读取文件内容 data = file.read() # 打印GB2312编码中文汉字 print(data.decode('gb2312')) # 打印GB18030编码中文汉字 print(data.decode('gb18030')) # 打印GBK编码中文汉字 print(data.decode('gbk')) # 打印BIG5编码中文汉字 print(data.decode('big5')) # 打印Unicode编码中文汉字 print(data.decode('unicode_escape')) # 打印UTF-8编码中文汉字 print(data.decode('utf-8')) # 打印UTF-16 BE(大端序)编码中文汉字 print(data.decode('utf-16-be')) # 打印UTF-16 LE(小端序)编码中文汉字 print(data.decode('utf-16-le')) ``` 请确保将代码中的`file.bin`替换为实际的二进制文件路径。这样,代码会使用给定的编码格式打印出文件中相应格式的中文汉字。 ### 回答3: 首先,要使用Python打开一个二进制文件,可以通过以下步骤实现: 1. 使用`open()`函数以二进制模式打开文件,指定参数`'rb'`。 2. 使用`read()`函数读取文件的内容,并将其保存在一个变量中。 接下来,我们需要将这些二进制数据解码为不同的编码格式来打印中文汉字。下面是针对不同编码格式的解码方法: 1. 对于GB2312编码,可以使用`decode()`函数将二进制数据解码为字符串,并指定参数`'gb2312'`。 2. 对于GB18030编码,可以使用`decode()`函数将二进制数据解码为字符串,并指定参数`'gb18030'`。 3. 对于GBK编码,可以使用`decode()`函数将二进制数据解码为字符串,并指定参数`'gbk'`。 4. 对于BIG5编码,可以使用`decode()`函数将二进制数据解码为字符串,并指定参数`'big5'`。 5. 对于unicode编码,可以使用`decode()`函数将二进制数据解码为字符串,并指定参数`'unicode'`。 6. 对于UTF-8编码,可以使用`decode()`函数将二进制数据解码为字符串,并指定参数`'utf-8'`。 7. 对于UTF-16 BE编码,可以使用`decode()`函数将二进制数据解码为字符串,并指定参数`'utf-16 be'`。 8. 对于UTF-16 LE编码,可以使用`decode()`函数将二进制数据解码为字符串,并指定参数`'utf-16le'`。 最后,我们可以使用`print()`函数将解码后的字符串打印出来。 以下是一个示例代码,实现了打开一个二进制文件,并以不同的编码格式打印出中文汉字: ```python # 打开二进制文件 with open('binary_file.bin', 'rb') as file: content = file.read() # 解码并打印中文汉字 print(content.decode('gb2312')) print(content.decode('gb18030')) print(content.decode('gbk')) print(content.decode('big5')) print(content.decode('unicode')) print(content.decode('utf-8')) print(content.decode('utf-16 be')) print(content.decode('utf-16le')) ``` 请注意,以上代码中的`binary_file.bin`是一个示例二进制文件名,你需要将其替换为你要打开的实际二进制文件的路径或文件名。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值