汉字占用两字节原因

经常可以看到这么一句话:

英文及符号占用一个字节,汉字占用两个字节.

大家大都强行记忆,并没有关注原因.
今天就能看看到底是什么原因导致的呢?
我们先看大家都见过的一张图
在这里插入图片描述
其中字符char占位一个字节或者两个字节.
当占位一个字节时,最大值为2^7-1,十进制为127,二进制为0111 1111
当占位两个字节时,最大值为2^16-1,十进制为65535,转为二进制为1111 1111 1111 1111
我们先了解一下上面的概念,接下来我们看看字符是如何表示的.

为了表示字符,我们需要建立一套「字符集」,规定每个字符和二进制数之间的一一对应关系。

先看看字符集的发展历史吧,
「ASCII 码」是最早出现的字符集,它使用 7 位二进制数(即一个字节的低 7 位)表示一个字符,最多能够表示 128 个不同的字符.
「EASCII 码」接着出现了,它使用 8 位二进制数表示一个字符,最多能够表示 256 个不同的字符.
「GB2312」字符集,其收录了 6763 个汉字.
「GBK」字符集是「GB2312」字符集的扩展,共收录了 21886 个汉字.在 GBK 编码方案中,ASCII 字符使用一个字节表示,汉字使用两个字节表示.

我们可以看到「ASCII 码」「EASCII 码」是一个字节8位,
而「GB2312」「GBK」远超一个字节所能表示的最大值256,只能使用两个字节表示,则是上面提到的最大值65536.

所以这就是原因了.
后面又出现了大一统局面「Unicode」 字符集,但英文字符占用空间的大小将会是 ASCII 编码下大小的 2 倍,非常浪费内存空间.就出现了UTF-8,UTF-15,UTF-32等编码方法.大家感兴趣可以自行补充.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值