ASCII、Unicode、GBK和UTF-8字符编码

最新推荐文章于 2022-04-01 07:45:00 发布

ivebeenready

最新推荐文章于 2022-04-01 07:45:00 发布

阅读量507

点赞数

分类专栏： C/C++

C/C++ 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

点击打开链接

上面链接写的很容易懂。下面是我昨天的实习log：

昨天读数据档读出来的描述是byte格式的，MAX_LEN = 256;

XML配置文档是这样的：

然后用转换工具转换出来的是这样：

这样byte[256]的数据读出来是不能直接用的，需要先转化为string类型，

string strDesc = System.Text.Encoding.UTF8.GetString(rProps.szDescription);

关于ASCII Unicode UTF8之间的联系，可以查看这篇博客：

http://dengo.org/archives/901

我个人的理解是：

ASCII码是用8bit表示，但是只能表示控制字符+英文字母+一些特殊的字符（点线圈叉等），为了能支持更多的字符描述，比如中文、韩文、日文，需要扩展字符，因此出现了Unicode字符。我一直以为Unicode是2byte，知乎上有个解释很好：

Unicode 是不是只有两个字节，为什么能表示超过 65536 个字符？

Unicode 目前规划的总空间是17个平面（平面0至16），0x0000 至 0x10FFFF。每个平面有 65536 个码点。
你只是大致知道平面0（「Basic Multilingual Plane」，即「BMP」）的 65536 个码点（即 0x0000 至 0xFFFF）如何编码，这不是 Unicode 的全部。

BMP 的字符是 Unicode 中最基础和最常用的一部分，以 UTF-16 编码时使用2字节，以 UTF-8 编码时使用1至3字节。
超出 BMP 的字符以 UTF-16 或 UTF-8 编码都需要4字节。
另外还有一个比较少用的编码形式，UTF-32，它编码任何 Unicode 字符都需要4个字节。

Unicode 的基础是一个编号的字符集，在字符集之上又规定了模块化的编码等等技术层次，各种具体的编码形式并不一致，你说的「Unicode 只有两个字节」这句话根本不成立。

如果没有UTF8，那么unicode也是有bug的。解释如下：

unicode同样也不完美，这里就有两个的问题，一个是，如何才能区别unicode和ascii？计算机怎么知道三个字节表示一个符号，而不是分别表示三个符号呢？第二个问题是，我们已经知道，英文字母只用一个字节表示就够了，如果unicode统一规定，每个符号用三个或四个字节表示，那么每个英文字母前都必然有二到三个字节是0，这对于存储空间来说是极大的浪费，文本文件的大小会因此大出二三倍，这是难以接受的。

UTF-8就是每次8个位传输数据，而UTF-16就是每次16个位。UTF32是每次32位。UTF-8就是在互联网上使用最广的一种unicode的实现方式，这是为传输而设计的编码，并使编码无国界，这样就可以显示全世界上所有文化的字符了。

UTF-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度，当字符在ASCII码的范围时，就用一个字节表示，保留了ASCII字符一个字节的编码做为它的一部分，注意的是unicode一个中文字符占2个字节，而UTF-8一个中文字符占3个字节）。从unicode到uft-8并不是直接的对应，而是要过一些算法和规则来转换。