UTF-8编码规则

最新推荐文章于 2024-09-24 17:49:57 发布

炼气散人

最新推荐文章于 2024-09-24 17:49:57 发布

阅读量5.9k

点赞数 2

分类专栏：字符与编码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/csfreebird/article/details/8570015

版权

本文介绍了UTF-8编码规则，包括UTF-8如何表示不同长度的字符，以及通过示例详细解释了如何将字符€转化为UTF-8编码的过程。

摘要由CSDN通过智能技术生成

UTF-8 全称是：Universal Character Set Transformation Format--8-bit。UTF-8是表示Unicode字符集中的每个字符的一种编码方式，采用变长编码，1-4字节。和UFF-16以及UTF-32相比，没有endianness和字节顺序掩码引发的复杂性。

UFT-8广泛用于web，email，现在越来越多的操作系统支持它。Linux默认就是UFT-8编码。

。2003年11月RFC 3629文档将UTF-8限制在[0, U+10FFFF]范围内，因此最多只能有4个字节。

下面的图来自wiki:

关于编码方法，首先要了解几个概念：

1. UTF-8的前128个字符都是用单字节表示，完全和ASCII码一样. 这就是上表的第一行

2. 2-4字节的情况下，第一个字节称为leading byte, 后面的字节叫做continuation bytes.

3. leading bytes的高位总是若干个1加上一个0组成，1的个数就是整个字节的个数，比如表格第二行就是110，第三行就是1110，第四行就是11110.

4. continuation bytes的高位总是10

5.其余的bit用于编码，如果有用不到的bit，都设置为0

上表第一行用单字节表示128个字符，表示全部的ASCII码。

上表第二行用两字节表示1920个字符，包含了绝大多数拉丁字母。

上表第三行用三字节表示Unicode BMP中的余下字符。

最低0.47元/天解锁文章

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。