GBK与Unicode码表的区别以及decoder和encoder的作用

爱幻想-hjyp

已于 2023-04-19 19:54:40 修改

阅读量3.6k

点赞数 1

分类专栏：杂记文章标签： linux 运维 ubuntu

于 2021-11-27 20:29:33 首次发布

本文链接：https://blog.csdn.net/qq_43705697/article/details/121582523

版权

杂记专栏收录该内容

10 篇文章 2 订阅

订阅专栏

文章目录

GBK与Unicode的区别
encoder和decoder的区别
实例
用途
参考链接

GBK与Unicode的区别

讲二者区别之前首先要明白什么是GBK，什么又是Unicode，他们是怎么表示的？

GBK和Unicode都是码表，码表的作用就是将一个个的字符与数字对应起来，比如英文字母a所对应的数值是97。

除了这两个常见的码表外，最常见的还有ASCII表，GBK主要用来对汉字和英文字母编码，Unicode不仅可以对汉字编码，还可以对其他语言进行编码，是一个大一统的编码表。从字符编码的范围上讲ASCII < GBK < Unicode

现在我们有了码表，也就知道了每个字符(中文字符，英文字符，其他字符)的二进制代码，但却没有规定这个二进制代码应该如何存储。对于GBK和ASCII等二进制长度固定的码表来说，存储是比较容易的，ASCII中每个字符用一个字节存储，GBK每个英文字符用一个字节存储，每个汉字符用两个字节存储。但是对于Unicode来说，因为它包含了很多字符，所以二进制长度是不固定的，比如一个英文字母一个字节就可以存储下，但是对于汉字或其他语言的字符，需要多个字节才能完整存储。如果统一取最长的字节数，比如英文字符也用三个字节来存储，那显然太浪费空间了，

为了存储Unicode规定的码表，人们发明了utf-8和utf-16，这是两种不同的实现方式，使用变长方式来存储Unicode编码，生活中比较常用的是utf-8。

utf-8存储方式下，英文字符占1个字节，中文字符占3个字节。

encoder和decoder的区别

计算机中所有的数据都是以二进制形式存储的，但我们直接看二进制是看不懂的，所以要借助decoder和encoder来完成字符与二进制数据之间的转换。

encoder：编码，将我们能看懂的字符转换为二进制
decoder：解码，将二进制转化为我们能看懂的字符串

实例

str = "中国yyds"
# 将str转换为Unicode编码格式下的二进制
utf_str = str.encode('utf-8')  # 输出结果为b'\xe4\xb8\xad\xe5\x9b\xbdyyds'
# 将str转换为gbk编码格式下的二进制
gbk_str = str.encode('gbk')  # 输出结果为b'\xd6\xd0\xb9\xfayyds'
print(utf_str)
print(gbk_str)
# 根据编码方式进行解码
print(utf_str.decode('utf-8'))  # 输出结果为中国yyds
print(gbk_str.decode('gbk'))  # 输出结果为中国yyds

从上面的例子可以看出，gbk编码下汉字占两个字节，utf-8编码下汉字占三个字节。

用途

我们用python打开一个文件或向文件中写数据时，一定要指定对应的encoder编码集，如：

with open(source_name, 'r', encoding='utf8') as fp:
	# do something

为什么打开文件时需要指定encoding编码格式呢？是因为如果没有指定，会使用系统默认的编码格式，mac 和 linux 使用的是utf-8，而 windows 使用的是 GBK 。

参考链接

这个博主讲的很详细
https://blog.csdn.net/qq_37859539/article/details/79857476
https://www.cnblogs.com/tsingke/p/10853936.html

爱幻想-hjyp

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
3
评论
GBK与Unicode码表的区别以及decoder和encoder的作用

文章目录GBK与Unicode的区别encoder和decoder的区别实例用途参考链接GBK与Unicode的区别讲二者区别之前首先要明白什么是GBK，什么又是Unicode，他们是怎么表示的？GBK和Unicode都是码表，码表的作用就是将一个个的字符与数字对应起来，比如英文字母a所对应的数值是97。除了这两个常见的码表外，最常见的还有ASCII表，GBK主要用来对汉字和英文字母编码，Unicode不仅可以对汉字编码，还可以对其他语言进行编码，是一个大一统的编码表。从字符编码的范围上讲ASCII
复制链接

扫一扫

专栏目录