UTF-8 code page

最新推荐文章于 2021-10-23 22:28:14 发布

sparkenglish

最新推荐文章于 2021-10-23 22:28:14 发布

阅读量1.1k

点赞数

分类专栏： C/C++

本文链接：https://blog.csdn.net/linghaidong/article/details/10051697

版权

23 篇文章 0 订阅

订阅专栏

UTF-8是一种针对Unicode的可变长度字符编码，也是一种前缀码。它可以用来表示Unicode标准中的任何字符，且其编码中的第一个字节仍与ASCII兼容，这使得原来处理ASCII字符的软件无须或只须做少部分修改，即可继续使用。

UTF-8编码规律：

Char. number range | UTF-8 octet sequence

(hexadecimal) | (binary)

--------------------+---------------------------------------------

0000 0000-0000 007F | 0xxxxxxx

0000 0080-0000 07FF | 110xxxxx 10xxxxxx

0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx

0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

0020 0000-03FF FFFF | 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

0400 0000 -7FFF FFFF| 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx10xxxxxx

编码规律：

（1）对于ASCII字符的编码使用一个字节进行编码，最高位为0.

（2）大于ASCII码的，就会有上面的第一字节的前几位表示该unicode字符的长度，比如110xxxxx,前三位告诉我们这是个2Byte的UNICODE字符；1110xxxx是个3Byte的unicode字符，依次类推；剩余字节的最高两位都为10；

（3）X位的填充，按照字符的unicode编码格式，从最低位开始依次往上填充，缺省的以0填充。

注：2003年11月UTF-8被RTF3629重新规范，只能使用原来Unicode定义的区域，U+0000到U+10FFFF。根据这些规范，以下字节值将无法出现在合法UTF-8串行中：