Unicode 编码相关

原创 2016年06月02日 01:31:56

相关链接

  1. Unicode编码范围表
    数字unicode码
    各个国家 不同字符集的unicode 编码范围

  2. 中文
    汉字UNICODE编码范围
    中文在unicode中的编码范围
    Unicode中文和特殊字符的编码范围

汉字 Unicode 编码范围

字符集 字数 Unicode 编码
基本汉字 20902字 4E00-9FA5
基本汉字补充 38字 9FA6-9FCB
扩展A 6582字 3400-4DB5
扩展B 42711字 20000-2A6D6
扩展C 4149字 2A700-2B734
扩展D 222字 2B740-2B81D
康熙部首 214字 2F00-2FD5
部首扩展 115字 2E80-2EF3
兼容汉字 477字 F900-FAD9
兼容扩展 542字 2F800-2FA1D
PUA(GBK)部件 81字 E815-E86F
部件扩展 452字 E400-E5E8
PUA增补 207字 E600-E6CF
汉字笔画 36字 31C0-31E3
汉字结构 12字 2FF0-2FFB
汉语注音 22字 3105-3120
注音扩展 22字 31A0-31BA

正则

Unicode CJK 的范围分布在多个区段中。最常用的范围是 U+4E00~U+9FA5,即名
为:CJK Unified Ideographs 的区块,但 U+9FA6~U+9FFF 之间的字符还属于空码,
暂时还未定义,但不能保证以后不会被定义。

下面这个是 Unicode 中 U+4E00~U+9FFF 的码表:
http://www.unicode.org/charts/PDF/U4E00.pdf

在这里可以根据 Unicode 码查到所有的字符:
http://www.unicode.org/cgi-bin/GetUnihanData.pl

另:在正则表达式中使用 [\u4e00-\u9fa5] 这种方式属于写死的代码,并不能根据
平台所提供的字符集范围不同而改变,不过对于要求不是很高的话的是可以了。如果
对字符集的要求很高,可以采用下面的这种 Unicode 块的方式:

String regex = "[\\p{InCJK Unified Ideographs}&&\\P{Cn}]]";

在当前的 JDK 版中与 [\u4e00-\u9fa5] 的意义一致。但这样可以匹配 Java 平台所支持
Unicode 块名为 CJK Unified Ideogrpahs 中已定义的字符,这种方式就属于“活”代码
今后的 JDK 版本升级了,定义到了 \u9fa6 的字符,同样能够满足匹配。

版权声明:本文为博主原创文章,转载请注明出处。

汉字编码与编程相关问题总结:ASCII、机内码、区位码、国标码、Unicode码是如何转换的

一、ASCII、机内码、区位码、国标码、Unicode码他们之间是如何转换的,方程式是什么 汉字系统中的过程包括区位码、国标码和机内码,其中的转换关系如下: 1.区位码(十进制)转换成区位...

Unicode编码相关的一个标准----UTF8

Unicode给每一个字符分配一个唯一的值,称为码点,但并不指定如何用这些值来表示原始文本。码点的形式为U+nnnn,其中nnnn指的是这个码点的十六进制值。Unicode目前支持超过100 000个...

Unicode+编码表

  • 2016年08月09日 09:42
  • 1.53MB
  • 下载

字符编码笔记:ASCII-Unicode和UTF-8

  • 2017年09月22日 13:59
  • 58KB
  • 下载

Java_字符编码(Unicode、UTF-8、UTF-16)

首先看一下下面的程序(测试英文和中文在Unicode、UTF-8、UTF-16这三种编码下,一个字符占几个字节) System.out.println("a(Unicode) ...

unicode编码

  • 2015年02月02日 15:42
  • 21KB
  • 下载

华智融官方unicode编码字库

  • 2016年08月18日 11:41
  • 1.8MB
  • 下载

http 请求数据返回 json 中中文字符为 unicode 编码转汉字转码

http 请求数据返回 json 中中文字符为 unicode 编码转汉字转码 我也遇到过,还是URLDecoder.decode()、和其他办法,可是不管用。也不知道是哪里出问题,也许是开始不应该...

ASCII和Unicode编码.docx

  • 2012年12月18日 11:22
  • 20KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Unicode 编码相关
举报原因:
原因补充:

(最多只允许输入30个字)