编码GBK和GB2312、Unicode、UTF-8

最新推荐文章于 2022-05-09 15:25:50 发布

zxfBdd

最新推荐文章于 2022-05-09 15:25:50 发布

阅读量491

点赞数

分类专栏： Java

原文链接：https://www.cnblogs.com/relex/p/10957613.html

版权

Java 专栏收录该内容

254 篇文章 5 订阅

订阅专栏

一、编码GBK和GB2312

随着计算机发展，各国已经不满足于单纯用ASCII码；

对于我们来说能在计算机中显示中文字符是至关重要的，所以我们还需要一张关于中文和数字对应的关系表；

一个字节8位二进制，只能最多表示256个字符，要处理中文显然一个字节是不够的；

所以我们需要采用两个字节来表示，而且还不能和ASCII编码冲突；

所以1980年中国制定了GB2312编码，国家简体中文字符集，兼容ASCII；

1995年制定了GBK编码，GB2312的扩展字符集，支持繁体字，兼容GB2312。

注：在GBK和GB2312中，一个中文字符占两个字节，16个二进制位，4个十六进制位。

如何兼容ASCII：

如何区别连在一起的2个字节是代表2个英文字母，还是一个中文汉字呢？

如果2个字节连在一起，且每个字节的第1位(也就是相当于128的那个2进制位)如果是1，就代表这是个中文，这个首位是128的字节被称为高字节。也就是2个高字节连在一起，必然就是一个中文。

因为0-127已经表示了英文的绝大部分字符，128-255是ASCII的扩展表，表示的都是极特殊的字符，一般没什么用。

所以0-127位ASCII码，GB2312就直接拿来用了。

二、编码Unicode

全世界有上百种语言，日本把日文编到Shift_JIS里，韩国把韩文编到Euc-kr里；

各国有各国的标准，就会不可避免地出现冲突，结果就是，在多语言混合的文本中，显示出来会有乱码。

因此，1991年国际标准组织统一标准字符集，编码Unicode应运而生。

最常用的是用两个字节表示一个字符（如果要用到非常偏僻的字符，就需要4个字节）

三、编码UTF-8

如果统一成Unicode编码，乱码问题从此消失了；

但是，Unicode编码最少用两个字节，ASCII码中英文是一个字节；

如果文本基本上全部是英文，用Unicode编码需要多一倍存储空间，存储和传输十分费劲。

1992年创建UTF-8编码，是一种针对Unicode的可变长度字符编码，又称万国码；

UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节（每8位缩减），从而兼容所有编码，

英文字符1字节，欧洲字符2字节，中文字符3字节，只有很生僻的字符才会被编码成4-6个字节。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
编码GBK和GB2312、Unicode、UTF-8

一、编码GBK和GB2312随着计算机发展，各国已经不满足于单纯用ASCII码；对于我们来说能在计算机中显示中文字符是至关重要的，所以我们还需要一张关于中文和数字对应的关系表；一个字节8位二进制，只能最多表示256个字符，要处理中文显然一个字节是不够的；所以我们需要采用两个字节来表示，而且还不能和ASCII编码冲突；所以1980年中国制定了GB2312编码，国家简体中文字...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。