unicode \u 编码字符与中文的互换

最新推荐文章于 2023-06-06 13:49:50 发布

py_xiaoyong

最新推荐文章于 2023-06-06 13:49:50 发布

阅读量5.5k

点赞数 3

分类专栏： python 文章标签： python unicode

本文链接：https://blog.csdn.net/py_xiaoyong/article/details/121018040

版权

本文介绍了如何将中文汉字转换为Unicode编码字符，以及如何将自定义的Unicode编码字符转回中文汉字。通过案例展示了前16x16个汉字的Unicode编码，并提供了一个判断字符是否为中文的函数。

摘要由CSDN通过智能技术生成

本人电脑win10 64位系统， python版本3.7 若系统与版本不同，以下内容仅供参考

本文章内容非unicode编码字符解码到中文，想看解码的请绕道！

.下面开始上内容：

在汉字转拼音中，要用到unicode编码，用于区分各个汉字，取出汉字的四位编码，方便我们构建汉字拼音语音表

hanzi="明"
str1=hanzi.encode("unicode_escape")#转字节字符
print(str1)#打印字节字符
bma=str(str1)[-5:][:4]#字节转字符并取出单个字的4位u编码

下面为精简版

hanzi="明"
str1=str(hanzi.encode("unicode_escape"))[-5:][:4]#取单字的4位u编码

编码字符范围是：4e00 到 u9ff

无r的字符编码，可以直接print()打印出来，但这种字符编码不可修改变更。

用'\u'+'4e00'自定义组合编码有转义会报错，所以前面要加r。有r的字符编码是不能用print()打印出汉字的，要用专门的编码转换

案例：

关注