Unicode编码

最新推荐文章于 2023-08-09 21:10:45 发布

Gis051

最新推荐文章于 2023-08-09 21:10:45 发布

阅读量1.4k

点赞数

分类专栏：基础知识文章标签： python

本文链接：https://blog.csdn.net/liubin051/article/details/120082797

版权

本文介绍了Unicode编码的作用，它是对各国文字、标点符号等进行编码的系统，以避免编码冲突。文中通过问答形式详细解释了Unicode编码范围，包括中文编码 `[ u4e00-u9fa5]`，并探讨了为何某些Unicode字符显示为空白或豆腐块，这通常是因为缺少对应字体。此外，还提到了全角和半角字符的区别及其转换规律。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

复盘最基础的知识：

问：网上搜索，中文的正则，一般用 [ \u4e00-\u9fa5] 即可搞定， [ \u4e00-\u9fa5] 是什么？

答： [ \u4e00-\u9fa5] 是一个范围，是Unicode编码表里的一段编码与中文的映射

问：那么Unicode是什么？

答：对各国文字、标点符号、特殊字符进行编码，避免不同文字编码冲突，计算机不知道这个编码到底是映射哪个图标、符号；

问：Unicode的编码范围有多少？中文 [ \u4e00-\u9fa5] 在什么位置？

答：自己看百度百科，我贴过来了，看下面也一样，我认为使用[\u0000-\uFFFF]就够了，啥火星文、鸟语、图标都在里面。

编码范围：说明

0000-007F：C0控制符及基本拉丁文 (C0 Control and Basic Latin)

0080-00FF：C1控制符及拉丁文补充-1 (C1 Control and Latin 1 Supplement)

0100-017F：拉丁文扩展-A (Latin Extended-A)

0180-024F：拉丁文扩展-B (Latin Extended-B)

0250-02AF：国际音标扩展 (IPA Extensions)

02B0-02FF：空白修饰字母 (Spacing Modifiers)

0300-036F：结合用读音符号 (Combining Diacritics Marks)

0370-03FF：希腊文及科普特文 (Greek and Coptic)

0400-04FF：西里尔字母 (Cyrillic)

0500-052F：西里尔字母补充 (Cyrillic Supplement)

0530-058F：亚美尼亚语 (Armenian)

0590-05FF：希伯来文 (Hebrew)

0600-06FF：阿拉伯文 (Arabic)

0700-074F：叙利亚文 (Syriac)

0750-077F：阿拉伯文补充 (Arabic Supplement)

0780-07BF：马尔代夫语 (Thaana)

07C0-077F：西非书面语言 (N'Ko)

0800-085F：阿维斯塔语及巴列维语 (Avestan and Pahlavi)

0860-087F：Mandaic

0880-08AF：撒马利亚语 (Samaritan)

0900-097F：天城文书 (Devanagari)

0980-09FF：孟加拉语 (Bengali)

0A00-0A7F：锡克教文 (Gurmukhi)

0A80-0AFF：古吉拉特文 (Gujarati)

0B00-0B7F：奥里亚文 (Oriya)

0B80-0BFF：泰米尔文 (Tamil)

0C00-0C7F：泰卢固文

最低0.47元/天解锁文章