utf-8 是unicode的一种实现方式

最新推荐文章于 2022-05-01 20:53:51 发布

cbszju

最新推荐文章于 2022-05-01 20:53:51 发布

阅读量982

点赞数

分类专栏：基础文章标签：编码规范

本文链接：https://blog.csdn.net/cbszju/article/details/104079614

版权

基础专栏收录该内容

6 篇文章 2 订阅

订阅专栏

为了统一，发明了unicode，将世界上所有的符号都纳入其中，每一个符号都给予一个独一无二的编码，现在unicode可以容纳100多万个符号，所有语言都可以互通，一个网页页面里可以同时显示各国文字。但没有规定如何存储。这样导致一个后果：出现了Unicode的多种存储方式。

UTF-8以字节为单位对Unicode进行编码。从Unicode到UTF-8的编码方式如下：

Unicode编码(十六进制)	UTF-8 字节流(二进制)
000000-00007F	0xxxxxxx
000080-0007FF	110xxxxx 10xxxxxx
000800-00FFFF	1110xxxx 10xxxxxx 10xxxxxx
010000-10FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

中文在utf-8中占3or4个字节，utf8字符是变长字符，在这里补充一下uft-8的编码方式。

一字节：0*******

两字节：110*****，10******

三字节：1110****，10******，10******

四字节：11110***，10******，10******，10******

五字节：111110**，10******，10******，10******，10******

六字节：1111110*，10******，10******，10******，10******，10******

因此，拿到字节串后，想判断UTF8字符的byte长度，按照上文的规律，只需要获取该字符的首个Byte，根据其值就可以判断出该字符由几个Byte表示。
链接：https://www.zhihu.com/question/20451870/answer/804005926

（二）英文字母和中文汉字在不同字符集编码下的字节数

https://www.cnblogs.com/liushui-sky/p/10483248.html

英文字母：

字节数 : 1;编码：GB2312

字节数 : 1;编码：GBK

字节数 : 1;编码：GB18030

字节数 : 1;编码：ISO-8859-1

字节数 : 1;编码：UTF-8

字节数 : 4;编码：UTF-16

字节数 : 2;编码：UTF-16BE

字节数 : 2;编码：UTF-16LE

中文汉字：

字节数 : 2;编码：GB2312

字节数 : 2;编码：GBK

字节数 : 2;编码：GB18030

字节数 : 1;编码：ISO-8859-1

字节数 : 3;编码：UTF-8

字节数 : 4;编码：UTF-16

字节数 : 2;编码：UTF-16BE

字节数 : 2;编码：UTF-16LE

其他参考：

https://www.cnblogs.com/doudou-taste/p/7351278.html

https://www.cnblogs.com/liushui-sky/p/10483248.html

百度百科https://baike.baidu.com/item/Unicode/750500?fr=aladdin

cbszju

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
utf-8 是unicode的一种实现方式

为了统一，发明了unicode，将世界上所有的符号都纳入其中，每一个符号都给予一个独一无二的编码，现在unicode可以容纳100多万个符号，所有语言都可以互通，一个网页页面里可以同时显示各国文字。但没有规定如何存储。这样导致一个后果：出现了Unicode的多种存储方式。UTF-8以字节为单位对Unicode进行编码。从Unicode到UTF-8的编码方式如下： Unicode编码(...
复制链接

扫一扫