UTF-8、UTF-16、Unicode、GB2312、GBK、GB18030一次说清楚

1、关于存储编码和显示编码的区别。
Unicode是显示编码,UTF-8、UTF-16、GB2312、GBK、GB18030都是存储/传输方面使用,也叫做存储编码、处理编码,你在计算机上看见的所有文字都从存储编码转成显示编码后,显示出来,当你单机保存时又从显示编码转换为存储编码存储起来。

2、为什么要区分存储编码和显示编码?
目前是为了节约存储空间和节约传输带宽,自古以来磁盘存储资源和传输资源都是需要昂贵代价的,虽然Unicode编码很好、覆盖很全、被称为万国码,但是它的编码并不节约空间,Unicode编码对应的存储编码的实现是UTF-16,也就是说UTF-16基本等于Unicode,和Unicode一样不节约空间,因为UTF-16不够节约空间,这就产生了UTF-8编码。UTF-8编码比Unicode节约空间很多,而且可以做到可Unicode一一映射,已经成为全球使用最广的文字处理编码方式。

3、中国为什么要发展GB2312/GBK/GB18030这些区别于UTF-8的存储编码?
既然UTF-8编码那么优秀,可以和Unicode一一映射,然后又很节约空间,为什么不直接采用UTF-8编码来存储和传输呢?一定要发展GB系列(中国国标系列)的编码呢?
对于一个需要包容全世界语言文字的文件,建议用UTF-8编码来存储和传输,比如一个txt文件里,你既需要放中国汉字,还要在该文件里写入新加坡语文字、德语文字、法语文字、意大利文字,葡萄牙文字,匈牙利文字,那么这个文件肯定是要存储成UTF-8编码格式。但是对于只需要存放中文文字和数字、字母、标点符号的一个文件,用UTF-8编码还不是最节约空间的。GB系列的标准对于汉字的存储和传输比UTF-8编码还节约空间很多,大约节约1/4到1/3左右的存储空间,所以GB系的编码在中国这片大地上很实用,很节省空间、节约带宽。打个最简单的比喻,20个学生的学号,后面的10-20这些人的学号必然是个“2位数”,如果你只有9个学生,那么这9个学生的学号都是个“1位数”,当然就节约空间一些,GB系列的编码不能处理德语、法语等其他国家的文字,它所考虑的范围就少一些,那么它就比UTF-8节约空间。

4、GB2312、GBK、GB18030这三款有哪些区别呢?
GB/T 2312-1980标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时,GB2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。GB2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。GB2312采用EUC储存方法,以便兼容于ASCII编码,GB2312编码存储的文字,每个符号最多用2个字节,最少用1个字节。它的生命周期就是1980年-1995年.

GBK的全称是《汉字内码扩展规范》(Chinese Internal Code Specification),中华人民共和国全国信息技术标准化技术委员会1995年12月1日制订,国家技术监督局标准化司、电子工业部科技与质量监督司1995年12月15日联合以技监标函1995 229号文件的形式,将它确定为技术规范指导性文件。2000年已被GB18030-2000替代。GBK编码,是在GB2312-80标准基础上的内码扩展规范,使用了双字节编码方案,共23940个码位,共收录了21003个汉字,完全兼容GB2312-80标准。用最简单的话来说就是将GB2312的6千多个汉字扩充到了2万多个汉字,加了日、韩等邻国的常用文字和中文冷僻的人名、古汉语、繁体字等一些字。它的生命周期是1995年-2000年.中文版的WIN95、WIN98、WINDOWS NT以及WINDOWS 2000、WINDOWS XP、WIN7、win10等都支持GBK编码方案。

GB18030是在GBK之后发展起来的, 它是用以替代GBK的一部国家强制性标准,它完全兼容GB2312,基本兼容GBK,它收录的字比GBK多得多,GB18030-2005共计7万余符号,包括了CJK-A、CJK、CJK-B等中日韩统一表义文字。GB18030每个符号可能占1个/2个/4字节,而GB2312和GBK编码的每个符号可能占1个/2个字节。GB18030共发过三版,GB18030-2000是第一版、GB18030-2005是第二版,GB18030-2022是第三版,一版比一版文字多,2005版将于2023年7月31日废止,2022版将于2023年8月1日起实施。

5、GB18030-2005和GB18030-2022有哪些区别呢?
GBK在GB2312基础上收录了CJK-A中日韩统一表义文字,GB18030-2005在GBK基础上收录了CJK、CJK-B等中日韩统一表义文字,GB18030-2022在GB18030-2005基础上增加了CJK-C、CJK-D、CJK-E、CJK-F四部分中日韩统一表义文字和其他少数民族的一些文字,还修改编码映射18个、删除重复映射9个、删除文字6个。

GB18030-2005将符合性级别区分为“强制性部分符合”和“完全集符合”,强制性部分符合测试则约等于 GBK,共计2万多字符;完全集部分则有7万多字符。
GB18030-2022将符合性级别区分为“实现级别1”、“实现级别2”、“实现级别3”;
     实现级别1要测 单字节部分、双字节部分和CJK-A、CJK部分,约等于GB18030-2005的强制性部分。
     实现级别2要测 级别1基础上,加测通用规范汉字表,而通用规范汉字表夹含在双字节部分和CJK-A、CJK、CJK-B当中,而在通用规范汉字表当中且不在实现级别1里的,只有220多个汉字,所以实现级别2只比实现级别1加测约220余个汉字。
     实现级别3要测 级别2基础上,加测CJK-B、CJK-C、CJK-D、CJK-E、CJK-F,实现级别3比实现级别2加测约6万多个符号,共计是8万7千多个汉字。
 

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 可以使用 Python 的内置函数 `open()` 打开二进制文件。然后,可以使用内置的 `read()` 函数读取文件的内容。 为了能够正确地解码文件中的中文汉字,需要指定文件的编码格式。如果不确定文件的编码格式,可以使用 Python 的 `chardet` 库来检测编码格式。 下面是一个示例代码,假设文件名为 `file.bin`: ```python import chardet # 检测文件的编码格式 with open('file.bin', 'rb') as f: data = f.read() result = chardet.detect(data) encoding = result['encoding'] # 使用检测到的编码格式打开文件 with open('file.bin', 'r', encoding=encoding) as f: content = f.read() print(content) ``` 上面的代码首先使用 `chardet` 库检测文件的编码格式,然后使用检测到的编码格式来打开文件。最后,使用 `read()` 函数读取文件内容并打印出来。 ### 回答2: 使用Python打开二进制文件并打印不同编码格式的中文汉字可以通过以下步骤实现: 1. 首先,使用Python的内置open()函数以二进制模式打开文件,指定文件路径和打开模式。 2. 读取文件内容,使用read()函数将文件内容读取为字节流,存储在一个变量中。 3. 通过不同编码格式对字节流进行解码,并打印出中文汉字。 下面是一个示例代码: ```python # 打开二进制文件 with open('file.bin', 'rb') as file: # 读取文件内容 data = file.read() # 打印GB2312编码中文汉字 print(data.decode('gb2312')) # 打印GB18030编码中文汉字 print(data.decode('gb18030')) # 打印GBK编码中文汉字 print(data.decode('gbk')) # 打印BIG5编码中文汉字 print(data.decode('big5')) # 打印Unicode编码中文汉字 print(data.decode('unicode_escape')) # 打印UTF-8编码中文汉字 print(data.decode('utf-8')) # 打印UTF-16 BE(大端序)编码中文汉字 print(data.decode('utf-16-be')) # 打印UTF-16 LE(小端序)编码中文汉字 print(data.decode('utf-16-le')) ``` 请确保将代码中的`file.bin`替换为实际的二进制文件路径。这样,代码会使用给定的编码格式打印出文件中相应格式的中文汉字。 ### 回答3: 首先,要使用Python打开一个二进制文件,可以通过以下步骤实现: 1. 使用`open()`函数以二进制模式打开文件,指定参数`'rb'`。 2. 使用`read()`函数读取文件的内容,并将其保存在一个变量中。 接下来,我们需要将这些二进制数据解码为不同的编码格式来打印中文汉字。下面是针对不同编码格式的解码方法: 1. 对于GB2312编码,可以使用`decode()`函数将二进制数据解码为字符串,并指定参数`'gb2312'`。 2. 对于GB18030编码,可以使用`decode()`函数将二进制数据解码为字符串,并指定参数`'gb18030'`。 3. 对于GBK编码,可以使用`decode()`函数将二进制数据解码为字符串,并指定参数`'gbk'`。 4. 对于BIG5编码,可以使用`decode()`函数将二进制数据解码为字符串,并指定参数`'big5'`。 5. 对于unicode编码,可以使用`decode()`函数将二进制数据解码为字符串,并指定参数`'unicode'`。 6. 对于UTF-8编码,可以使用`decode()`函数将二进制数据解码为字符串,并指定参数`'utf-8'`。 7. 对于UTF-16 BE编码,可以使用`decode()`函数将二进制数据解码为字符串,并指定参数`'utf-16 be'`。 8. 对于UTF-16 LE编码,可以使用`decode()`函数将二进制数据解码为字符串,并指定参数`'utf-16le'`。 最后,我们可以使用`print()`函数将解码后的字符串打印出来。 以下是一个示例代码,实现了打开一个二进制文件,并以不同的编码格式打印出中文汉字: ```python # 打开二进制文件 with open('binary_file.bin', 'rb') as file: content = file.read() # 解码并打印中文汉字 print(content.decode('gb2312')) print(content.decode('gb18030')) print(content.decode('gbk')) print(content.decode('big5')) print(content.decode('unicode')) print(content.decode('utf-8')) print(content.decode('utf-16 be')) print(content.decode('utf-16le')) ``` 请注意,以上代码中的`binary_file.bin`是一个示例二进制文件名,你需要将其替换为你要打开的实际二进制文件的路径或文件名。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值