java 解析unicode,解析Unicode编码和Java char

最新推荐文章于 2024-05-05 20:41:48 发布

MireskaSunbreeze

最新推荐文章于 2024-05-05 20:41:48 发布

阅读量796

点赞数

文章标签： java 解析unicode

Java的字符类型采用的是UTF-16编码方式对Unicode编码表进行表示。其中一个char类型固定2Bytes(16bits)。首先先介绍一下Unicode编码表和UTF-16编码算法：

Unicode编码表的专业术语：

代码点 (code point): 指在Unicode编码表中一个字符所对应的代码值。如汉字“一”的代码点是U+4E00，英文字母“A”的代码点是U+0041。

代码单元( code unit): 规定16bits的存储容量就是一个代码单元。

Unicode编码表分为17个代码级别 (code plane)，其中代码点\u0000-\uFFFF为第一级别 ——基本多语言级别 (basic multilingual plane),可以用一个代码单元存储一个代码点。其余16个附加级别从0x10000-0x10FFFF(需要两个代码单元)。其中需要指出的是在多语言级别中，U+D800-U+DFFF这2048值没有表示任何字符，被称为Unicode的替代区域(surrogate area)。UTF-16正是的运用了这一区域，用2个代码单元(2*16bits)巧妙的表示出20bits代码点的Unicode附加级别。

UTF-16编码算法

假设U是一个代码点，也就是Unicode编码表中一个字符所对应的Unicode值。

1) 如果U

2) 如果U+10FFFF>U>=U+10000，也就是处于附加级别中。UTF-16用2个16位来表示出了，并且正好将每个16位都控制在替代区域U+D800-U+DFFF 中了,具体操作如下：

分别初始化2个16位无符号的整数 —— W1和W2。其中W1=110110yyyyyyyyyy(0xD800-0xDBFF),W2 = 110111xxxxxxxxxx(0xDC00-OxDFFF)。然后，将U的高10位分配给W1的低10位，将U的低10位分配给W2的低10位。这样就可以将20bits的代码点U拆成两个16bits的代码单元。而且这两个代码点正好落在替代区域U+D800-U+DFFF中。

具体举个例子：代码点U+1D56B(一个整数集的算术符号Z)

0x1D56B=

MireskaSunbreeze

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java 解析unicode,解析Unicode编码和Java char

Java的字符类型采用的是UTF-16编码方式对Unicode编码表进行表示。其中一个char类型固定2Bytes(16bits)。首先先介绍一下Unicode编码表和UTF-16编码算法：Unicode编码表的专业术语：代码点 (code point): 指在Unicode编码表中一个字符所对应的代码值。如汉字“一”的代码点是U+4E00，英文字母“A”的代码点是U+0041。代码单元( cod...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。