Unicode编码

复盘最基础的知识: 

问:网上搜索,中文的正则,一般用 [ \u4e00-\u9fa5] 即可搞定, [ \u4e00-\u9fa5] 是什么?

答: [ \u4e00-\u9fa5]  是一个范围,是Unicode编码表里的一段编码与中文的映射

问:那么Unicode是什么?

答:对各国文字、标点符号、特殊字符进行编码,避免不同文字编码冲突,计算机不知道这个编码到底是映射哪个图标、符号;

问:Unicode的编码范围有多少?中文 [ \u4e00-\u9fa5] 在什么位置?

答:自己看百度百科,我贴过来了,看下面也一样,我认为使用[\u0000-\uFFFF]就够了,啥火星文、鸟语、图标都在里面。

编码范围:说明

0000-007F:C0控制符及基本拉丁文 (C0 Control and Basic Latin)

0080-00FF:C1控制符及拉丁文补充-1 (C1 Control and Latin 1 Supplement)

0100-017F:拉丁文扩展-A (Latin Extended-A)

0180-024F:拉丁文扩展-B (Latin Extended-B)

0250-02AF:国际音标扩展 (IPA Extensions)

02B0-02FF:空白修饰字母 (Spacing Modifiers)

0300-036F:结合用读音符号 (Combining Diacritics Marks)

0370-03FF:希腊文及科普特文 (Greek and Coptic)

0400-04FF:西里尔字母 (Cyrillic)

0500-052F:西里尔字母补充 (Cyrillic Supplement)

0530-058F:亚美尼亚语 (Armenian)

0590-05FF:希伯来文 (Hebrew)

0600-06FF:阿拉伯文 (Arabic)

0700-074F:叙利亚文 (Syriac)

0750-077F:阿拉伯文补充 (Arabic Supplement)

0780-07BF:马尔代夫语 (Thaana)

07C0-077F:西非书面语言 (N'Ko)

0800-085F:阿维斯塔语及巴列维语 (Avestan and Pahlavi)

0860-087F:Mandaic

0880-08AF:撒马利亚语 (Samaritan)

0900-097F:天城文书 (Devanagari)

0980-09FF:孟加拉语 (Bengali)

0A00-0A7F:锡克教文 (Gurmukhi)

0A80-0AFF:古吉拉特文 (Gujarati)

0B00-0B7F:奥里亚文 (Oriya)

0B80-0BFF:泰米尔文 (Tamil)

0C00-0C7F:泰卢固文 (Telugu)

0C8

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值