ANSI, UTF-8, Unicode, GBK, GB2312 字符编码小结

最新推荐文章于 2022-05-13 08:53:09 发布

序木

最新推荐文章于 2022-05-13 08:53:09 发布

阅读量744

点赞数

分类专栏：编程语言其他文章标签： ANSI UTF-8 Unicode GBK GB2312 字符编码小结

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cc1949/article/details/43672857

版权

编程语言同时被 2 个专栏收录

32 篇文章 2 订阅

订阅专栏

23 篇文章 1 订阅

订阅专栏

这两天碰见一个Bug，涉及到字符编码，索性研究了下，整理出来，以便今后查阅。

ASCII码，0~127,128个，这个就不用多说了，他是计算机文明的基石。但是这里面只有英文字母，其他国家如何把本国的文字输入到电脑中呢？所以基本每种语言都有自己的字符集，如汉字就有GB2312（简体中文），BIG5（繁体中文）等等。

但不同的ANSI编码在不同语言之间是不兼容的，所以对于不同的操作系统之间文件的传输，或者在同样的操作系统下，源文件语言不同于OS的语言文件的传输，需要转换成UT8格式。

如何转换呢？

GBK、GB2312等与UTF8之间都必须通过Unicode编码才能相互转换：
GBK、GB2312 --> Unicode --> UTF-8
UTF-8 --> Unicode --> GBK、GB2312

具体区别：

ANSI: 16384个字符。这就是ANSI字符标准。英文一个字节，中文两个字节。中文的网页和操作系统中通常采用ANSI编码，这也是微软OS的一个字符标准。对于ANSI，不同的国家和地区制定了不同的标准，由此产生了GB2312（简体中文），BIG5（繁体中文），JIS（日文）等各自的编码标准。但不同的ANSI编码在不同语言之间是不兼容的，所以对于不同的操作系统之间文件的传输，或者在同样的操作系统下，源文件语言不同于OS的语言文件的传输，需要转换成UT8格式。

UNICODE：使用两个字节对世界上几乎所有的语言进行编码（0x0000－0xFFFF），65536个字符，每种语言的代码段不同，两个字节(英文、中文都是两个字节)所表达的字符是唯一的，所以不同语种可以共存于文本中，解决国际化的问题。

UTF-8: 是Unicode一种压缩形式，英文A在Unicode中表示为0x0041，老外觉得这种存储方式太浪费，因为浪费了50%的空间，于是就把英文压缩成1个字节，成了UTF-8编码，但是汉字在UTF-8中占3个字节，显然用做中文不如ANSI合算，这就是中国的网页用作ANSI编码而老外的网页常用UTF-8的原因。

特别提下 Unicode 和 UTF-8 区别

Unicode字符集，它固定使用16bits（两个字节）来表示一个字符，共可以表示65536个字符, 标准的Unicode称为UTF-16(UTF: UCS Transformation Format )。

后来为了双字节的Unicode能够在现存的处理单字节的系统上正确传输，出现了UTF-8，使用类似MBCS的方式对Unicode进行编码。毕竟互联网70％以上的信息仍然是英文。如果连英文都用2个字节存取(UCS-2)，空间浪费不就太多了？

所谓UTF-8就是这样一个为了提高英文存取效率的字符集转换格式：Unicode Transformation Form 8-bit form。用UTF-8，UNICODE的2字节字符用变长个（1－3个字节）表示：

对英文，仍然和ASCII一样用1个字节表示，这个字节的值小于128(/x80)；
对其他语言的用一个值位于128-256之间的字节开始，再加后面紧跟的2个字节表示，一个字符一共是3个字节；

UTF-8编码字符理论上可以最多到 6 个字节长, 然而 16 位 BMP 字符最多只用到 3 字节长。
Bigendian UCS-4 字节串的排列顺序是预定的。
字节 0xFE 和 0xFF 在 UTF-8 编码中从未用到。
下列字节串用来表示一个字符。用到哪个串取决于该字符在 Unicode 中的序号.

U-00000000 - U-0000007F: 0xxxxxxx
U-00000080 - U-000007FF: 110xxxxx10xxxxxx
U-00000800 - U-0000FFFF: 1110xxxx10xxxxxx 10xxxxxx
U-00010000 - U-001FFFFF: 11110xxx10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 - U-03FFFFFF: 111110xx10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 - U-7FFFFFFF: 1111110x10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

xxx 的位置由字符编码数的二进制表示的位填入。越靠右的 x 具有越少的特殊意义。只用最短的那个足够表达一个字符编码数的多字节串。注意在多字节串中, 第一个字节的开头"1"的数目就是整个串中字节的数目.

例如: Unicode 字符 U+00A9 = 1010 1001 (版权符号) 在 UTF-8 里的编码为:

11000010 10101001 = 0xC2 0xA9

而字符 U+2260 = 0010 0010 0110 0000 (不等于) 编码为:

11100010 10001001 10100000 = 0xE2 0x89 0xA0

这种编码的官方名字拼写为 UTF-8, 其中 UTF 代表 UCS Transformation Format。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
ANSI, UTF-8, Unicode, GBK, GB2312 字符编码小结

这两天碰见一个Bug，涉及到字符编码，索性研究了下，整理出来，以便今后查阅。ASCII码，0~127,128个，这个就不用多说了，他是计算机文明的基石。但是这里面只有英文字母，其他国家如何把本国的文字输入到电脑中呢？所以基本每种语言都有自己的字符集，如汉字就有GB2312（简体中文），BIG5（繁体中文）等等。但不同的ANSI编码在不同语言之间是不兼容的，所以对于不同的操作系统之间文件的传
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。