UTF-8编码原理

最新推荐文章于 2024-06-30 19:46:34 发布

风吹千里

最新推荐文章于 2024-06-30 19:46:34 发布

阅读量444

点赞数 4

分类专栏： # JDK 文章标签： java UTF-8

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/maligebazi/article/details/137330038

版权

JDK 专栏收录该内容

33 篇文章 0 订阅

订阅专栏

本文详细讲述了UTF-8编码的发展历程，从ASCII码的局限性引出Unicode，介绍了UTF-32和UTF-16的长字节问题，重点阐述了UTF-8的变长设计，以及如何通过第一个字节判断字符占用字节数。

摘要由CSDN通过智能技术生成

UTF-8是目前使用最广泛的Unicode字符编码，本文顺着历史顺序讲解，来引出UTF8编码的来由和工作原理。

1. ASCII码

最开始是ASCII码，每个码位（code point）占1个字节，使用128个码位定义128个字符，每个字节的最高位是0
在这里插入图片描述

如果是英文环境，这个编码很理想，但是如果是其它语系环境，ASCII码就不行了，所以推出了Unicode编码。

2. UTF-32

UTF是Unicode Transformation Formats的缩写，32意思是每个字符使用32位来表示，即4个字节，这样就能表示很多的字符了。
但是缺点也很明显，如果是英文环境，那么每个英文字符都要占用4个字节，这样就会造成大量的浪费。

3.UTF-16

UTF16不是每个字符使用2个字节（16位）表示，而是一个字符根据其对应的码位（code point）大小，可以使用2个字节表示或者4个字节表示

4.UTF-8

UTF-8是变长的，根据字符对应的码位（code point）大小，可以是1个字节，2个字节，3个字节或4个字节。
在这里插入图片描述

在解码时，如何知道这个字符占用几个字节呢？通过解析第一个字节获取信息。

1个字节

如果第一个字节的最高位是0，那么表示占一个字节，如下，

在这里插入图片描述

可以看出UTF-8是完全兼容ASCII码的，因为ASCII码的最高位也是0

2个字节

如果第一个字节（leading byte）的最高三位是110，那么表示这个字符占2个字节，第二个字节的最高2位是10
在这里插入图片描述
蓝色部分的数字组合在一起，就是实际的码位值。
假如要表示的字符，其码位值是413，那么就表示如下，

3个字节

如果第一个字节（leading byte）的最高三位是1110，那么表示这个字符占3个字节，第2和第3个字节的最高2位是10
在这里插入图片描述

4个字节

原理同上，只是第一个字节（leading byte）的最高三位是11110
在这里插入图片描述
不同字节对应的码位范围如下图，左侧Bits栏表示用于表示码位的bit数，如4个字节，其中有21位用于表示码位，即上图中的蓝色部分。

关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
UTF-8编码原理

UTF-8是目前使用最广泛的Unicode字符编码，本文顺着历史顺序讲解，来引出UTF8编码的来由和工作原理。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

风吹千里 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。