关于unicode、utf8、utf16、gb2312和GBK的一些理解

最新推荐文章于 2020-04-24 00:04:33 发布

JeamKing

最新推荐文章于 2020-04-24 00:04:33 发布

阅读量1.6k

点赞数

分类专栏： Windows 及脚本 Java 文章标签：嵌入式 windows api 语言手机平台

Java 同时被 2 个专栏收录

29 篇文章 0 订阅

订阅专栏

Windows 及脚本

9 篇文章 0 订阅

订阅专栏

先从最简单的说起。。。ASCII码。。。大家都知道的了。。。用7位的编码如果只是代表英文字母和标点符号。。。还是可以的。。。。但是如果想要表达汉字或者其他字符。。。就远远不够了。。。因此就出现了很多其他的编码。。。如下。。。。。

（1）为了处理汉字，于是出现了用于简体中文的GB2312和用于繁体中文的big5

GB2312采用变长编码。。。如果第一个字节的第一位是0.。。则代表这个字符只有一个字节。。。只有一个字节的字符其编码和ASCII码一样。。。如果第一个字节的第一位是1。。。则把下一个字节和当前字节一起。。当作一个字符的双字节编码。。。

后来再继续拓展。。。以支持更多的汉字。。。因此出现了GBK和GB18030。。。其中GB18030成为正式的国家标准。。。。从GB18030到GBK。。。到GB2312。。。再到ASCII。。都是向下兼容的。。。

而对于现在的PC平台。。必须支持GB18030。。。对于嵌入式产品则暂不要求。。。所以手机、MP3等一般都只支持GB2312。。。

（2）而unicode是由国际组织设计的，可以容纳全世界多种语言文字的编码方案。。。。

正确的说。。。unicode是一张编码表。。。。上面规定了各个字符的编码（类似于各个字符的代号）。。

这张编码表如果用人眼来看。。。然后每个编码都是唯一的。。。要什么字符都可以在上面查找到。。。

但是在计算机传输和处理中确不行。。。。如果字符按unicode中的编码直接转成字节流来传输。。。计算机无法判断从那个字节字符的开始。。。毕竟计算机里面所有信息都是用1、0的字节流来传输的。。。

因此出现了用于传输的编码。。。utf-8和utf-16.。。。。

也就是说。。。utf-8和utf-16都是表示unicode的。。。只是unicode用于传输的不同格式而已。。。

utf-8是用8位为单元的变长编码。。。。如下：

0000 - 007F 0xxxxxxx
0080 - 07FF 110xxxxx 10xxxxxx
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx

第一个字节的开头。。。代表了需要把当前字节和后面多少个字节一起当作一个字符的字节流来解析。。。

而对于一般的英文子母等。。。则一般都是只有一个字节表示的。。。所以utf-8中英文字母的字节流和ASCII字节流几乎是一样的。。。。

utf-16则是以16位为单元的变长编码。。。对了。。。没错。。。utf-16也是变长编码。。。。

编码格式类似于utf-8.。。。。但是由于utf-16以16位为一个单元。。。因此对于0x10000的unicode码。。。刚好与其 utf-16格式的字节流一样。。。而实际应用中的unicode码总是小于0x10000。。。所以经常把utf-16字节流当作unicode编码。。。。

最后再说一点。。。。

在windows 的API中。。。有两个函数是用来进行多字节和宽字节直接的转换的。。。

MultiByteToWideChar();

WideCharToMultiByte();

utf-8字节流，GB2312等就可以说是多字节。。。因为都是用8位为单元的。。。

而utf-16则可以说是宽字节。。。。因为是以16位为单元的。。。。

其他的详细信息可以参考MSDN和一些相关书籍。。。。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
关于unicode、utf8、utf16、gb2312和GBK的一些理解

<br />先从最简单的说起。。。ASCII码。。。大家都知道的了。。。用7位的编码如果只是代表英文字母和标点符号。。。还是可以的。。。。但是如果想要表达汉字或者其他字符。。。就远远不够了。。。因此就出现了很多其他的编码。。。如下。。。。。<br />（1）为了处理汉字，于是出现了用于简体中文的GB2312和用于繁体中文的big5<br />GB2312采用变长编码。。。如果第一个字节的第一位是0.。。则代表这个字符只有一个字节。。。只有一个字节的字符其编码和ASCII码一样。。。如果第一个字节的第一位
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。