Unicode中文编码介绍，范围\u4E00-\u9FA5

最新推荐文章于 2024-06-26 09:57:32 发布

DOT Manager

最新推荐文章于 2024-06-26 09:57:32 发布

阅读量2.1k

点赞数

分类专栏： Python技能文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42888180/article/details/134099969

版权

Python技能专栏收录该内容

9 篇文章 1 订阅

订阅专栏

世界上存在着多种编码方式，同一个二进制数字可以被解释成不同的符号。因此，要想打开一个文本文件，就必须知道它的编码方式，否则用错误的编码方式解读，就会出现乱码。为什么电子邮件常常出现乱码？就是因为发信人和收信人使用的编码方式不一样。

可以想象，如果有一种编码，将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码，那么乱码问题就会消失。这就是Unicode，就像它的名字都表示的，这是一种所有符号的编码。

Unicode当然是一个很大的集合，现在的规模可以容纳100多万个符号。每个符号的编码都不一样，比如，U+0639表示阿拉伯字母Ain，U+0041表示英语的大写字母A，U+4E25表示汉字”严”。具体的符号对应表，可以查询unicode.org，或者专门的汉字对应表http://www.chi2ko.com/tool/CJK.htm。

UTF-8

互联网的普及，强烈要求出现一种统一的编码方式。UTF-8就是在互联网上使用最广的一种Unicode的实现方式。其他实现方式还包括UTF-16（字符用两个字节或四个字节表示）和UTF-32（字符用四个字节表示），不过在互联网上基本不用。重复一遍，这里的关系是，UTF-8是Unicode的实现方式之一。

UTF-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。

UTF-8的编码规则很简单，只有二条：

1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。

2）对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。

下表总结了编码规则，字母x表示可用编码的位。

Unicode符号范围 | UTF-8编码方式
(十六进制) | （二进制）
——————–+———————————————
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

跟据上表，解读UTF-8编码非常简单。如果一个字节的第一位是0，则这个字节单独就是一个字符；如果第一位是1，则连续有多少个1，就表示当前字符占用多少个字节。

下面，还是以汉字”严”为例，演示如何实现UTF-8编码。

已知”严”的unicode是4E25（100111000100101），根据上表，可以发现4E25处在第三行的范围内（0000 0800-0000 FFFF），因此”严”的UTF-8编码需要三个字节，即格式是”1110xxxx 10xxxxxx 10xxxxxx”。然后，从”严”的最后一个二进制位开始，依次从后向前填入格式中的x，多出的位补0。这样就得到了，”严”的UTF-8编码是”11100100 10111000 10100101”，转换成十六进制就是E4B8A5。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
4
评论
Unicode中文编码介绍，范围\u4E00-\u9FA5

已知”严”的unicode是4E25（100111000100101），根据上表，可以发现4E25处在第三行的范围内（0000 0800-0000 FFFF），因此”严”的UTF-8编码需要三个字节，即格式是”1110xxxx 10xxxxxx 10xxxxxx”。每个符号的编码都不一样，比如，U+0639表示阿拉伯字母Ain，U+0041表示英语的大写字母A，U+4E25表示汉字”严”。2）对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。
复制链接

扫一扫

专栏目录

DOT Manager

CSDN认证博客专家 CSDN认证企业博客

码龄6年

62: 原创

9808: 周排名

16万+: 总排名

5万+: 访问

: 等级

750: 积分

2090: 粉丝

107: 获赞

25: 评论

210: 收藏

私信

关注

热门文章

分类专栏

最新评论

NLP之中文自然语言处理工具库：SnowNLP(情感分析/分词/自动摘要)
weixin_58349662: 我还以为是我的问题
NLP之中文自然语言处理工具库：SnowNLP(情感分析/分词/自动摘要)
CiaoGule: 代码全都看不清啊大大
MySQL 入门（一）：Mysql 软件的安装教程与测试
dsb666555: 第10步启动失败怎么办呀
第十一章 Numpy库
CSDN-Ada助手: 恭喜你开始了博客创作的第一步！Numpy库是一个很有趣的主题，希望你可以继续深入探讨它的各种用法和应用场景。接下来，我建议你可以尝试结合实际案例或者自己的学习经验，来进一步丰富你的博客内容。加油！期待你更多的精彩文章。推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
Jupter Notebook 如何生成目录操作
CSDN-Ada助手: 这篇博客让我对Jupter Notebook生成目录操作有了更清晰的认识，非常感谢作者的分享！希望作者能继续分享类似的技巧和经验，让更多的人受益。另外，除了生成目录操作，我觉得对于Jupter Notebook的一些插件和扩展也是很有帮助的，比如一些数据可视化的插件、代码自动补全的插件等，希望作者在以后的博客中能够分享一些相关的知识，让读者能够更全面地了解Jupter Notebook的使用方法。感谢作者的分享！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

安卓版的c语言记事本程序代码测试通过

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

DOT Manager 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。