Unicode编码范围

本文详细介绍了Unicode编码的不同范围,包括中文字符的主要范围U+4E00~U+9FA5,以及Unicode编码的各个扩展区段,如拉丁文、希腊文、希伯来文等。此外,还提供了相关的参考资料和正则表达式匹配中文字符的方法。
摘要由CSDN通过智能技术生成
引言
       unicode是全世界统一的编码规则,但只规定了各种字符的数字编码(官网:www.unicode.org),具体实现的存储方式有utff-8,utf-16,utf-32等形式,各种形式有不同的存储和与unicode代码的映射规则。


中文字符范围
Unicode CJK 的范围分布在多个区段中,带有 CJK 的区块名中都拥有汉字。但最常用的范围是 U+4E00~U+9FA5,即名
为:CJK Unified Ideographs 的区块,但 U+9FA6~U+9FFF 之间的字符还属于空码,暂时还未定义,但不能保证以后不会被定义。
注1:中文范围 4E00-9FBF:CJK 统一表意符号 (CJK Unified Ideographs)
注2:正则表达式[\u4e00-\u9fa5] 可匹配中文字符,但这种方式并不能根据平台所提供的字符集范围不同而改变。
注3:Unicode 中 U+4E00~U+9FFF 的码表:http://www.unicode.org/charts/PDF/U4E00.pdf
注4:Unicode 码查到所有的字符:http://www.unicode.org/cgi-bin/GetUnihanData.pl

Unicode 编码范围 
  0000-007F:C0控制符及基本拉丁文 (C0 Control and Basic Latin)
  0080-00FF:C1控制符及拉丁文补充-1 (C1 Control and Latin 1 Supplement)
  0100-017F:拉丁文扩展-A (Latin Extended-A)
  0180-024F:拉丁文扩展-B (Latin Extended-B)
  0250-02AF:国际音标扩展 (IPA Extensions)
  02B0-02FF:空白修饰字母 (Spacing Modifiers)
  0300-036F:结合用读音符号 (Combining Diacritics Marks)
  0370-03FF:希腊文及科普特文 (Greek and Coptic)
        0400-04FF:西里尔字母 (Cyrillic)
  0500-052F:西里尔字母补充 (Cyrillic Supplement)
  0530-058F:亚美尼亚语 (Armenian)
  0590-05FF:希伯来文 (Hebrew)
  0600-06FF:阿拉伯文 (Arabic)
  0700-074F:叙利亚文 (Syriac)
  0750-077F:阿拉伯文补充 (Arabic Supplement)
  0780-07BF:马尔代夫语 (Thaana)
  07C0-077F&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值