Unicode字符集

最近研究String类的源码时,看到一个构造方法
public String(int[] codePoints, int offset, int count),好奇之下进入查看发现是将Unicode转为字符串的方法。再细细查看,发现Character.isBmpCodePoint(c)``Character.isValidCodePoint(c),先说几个概念

1.几个概念

  • Unicode 统一编码 0x000000-0x10ffff,其中0x0000-0xffff为基本多语言平面字符
  • bmp 基本多语言平面字符,对应Unicode中0x0000-0xffff
  • bom (byte order mark ) 类似于魔数,在Unicode中用来区分big endian和little endian.在UTF-8编码中,可以作为魔数。
  • Unicode的UCS-2标准中汉字范围为U+4e00-U+9fa5;总共有20902个汉字
  • Unicode码空间为U+0000到U+10FFFF,一共有17个平面,每个平面可容下65536个code point。也就是17*65536=1,114,112。但是其中的U+D800-U+DFFF作为UTF-16编码代理区保留,也就是它们不会作为code point分配给字符,保留数目是8*256=2048。

2.几个方法

  • Character.isBmpCodePoint(c) Unicode中0x0000-0xffff
     return codePoint >>> 16 == 0;
  • Character.isValidCodePoint(c) 判断是否为Unicode
 int plane = codePoint >>> 16;
 return plane < ((MAX_CODE_POINT + 1) >>> 16);
  • >>>是指无符号类型右移

3.代码实现

  • (1) 如果在BMP级别中,那么16bits(一个代码单元)就足够表示出字符的Unicode值。
  • ¡(2) 如果U+10FFFF>U>=U+10000,也就是处于增补字符级别中。UTF-16用2个16位来表示出了,并且正好将每个16位都控制在替代区域U+D800-U+DFFF(其中\uD800-\uDBFF为高代理项 范围,\uDC00- \uDFFF为低代理项 范围) 中。
public static final char MIN_LOW_SURROGATE  = '\uDC00';
return (char) ((codePoint & 0x3ff)+MIN_LOW_SURROGATE);

public static final char MIN_HIGH_SURROGATE = '\uD800';
public static final int MIN_SUPPLEMENTARY_CODE_POINT = 0x010000;

public static char highSurrogate(int codePoint) {
  return (char) ((codePoint >>> 10)+ (MIN_HIGH_SURROGATE - (MIN_SUPPLEMENTARY_CODE_POINT >>> 10)));
    }

解释:
\uDC00+0x3FF=\uDFFF,正好代理低10位;
\uD800

3.UTF-8

UTF-8以字节为单位对Unicode进行编码。从Unicode到UTF-8的编码方式如 下:
Unicode编码(16进制) ║ UTF-8 字节流(二进制)
000000 - 00007F ║ 0xxxxxxx
000080 - 0007FF ║ 110xxxxx 10xxxxxx
000800 - 00FFFF ║ 1110xxxx 10xxxxxx 10xxxxxx
010000 - 10FFFF ║ 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

UTF-8的特点是对不同范围的字符使用不同长度的编码。对于0x00-0x7F之间的字 符,UTF-8编码与ASCII编码完全相同。UTF-8编码的最大长度是4个字节。从上表可以看出,4字节模板有21个x,即可以容纳21位二进制数 字。Unicode的最大码位0x10FFFF也只有21位。
例1:“汉”字的Unicode编码是0x6C49。0x6C49在 0x0800-0xFFFF之间,使用用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx。将0x6C49写成二进制是:0110 1100 0100 1001, 用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。
例2:Unicode编码0x20C30在0x010000-0x10FFFF之间,使用用4 字节模板了:11110xxx 10xxxxxx 10xxxxxx 10xxxxxx。将0x20C30写成21位二进制数字(不足21位就在前面补0):0 0010 0000 1100 0011 0000,用这个比特流依次代替模板中的x,得到:11110000 10100000 10110000 10110000,即F0 A0 B0 B0。

4.UTF-16

  • * UTF-16编码以16位无符号整数为单位。我们把Unicode编码记作U。*

    编码规则如下:
    如果U<0x10000,U的UTF-16编码就是U对应的16位无符号整数(为书写简 便,下文将16位无符号整数记作WORD)。
    如果U≥0x10000,我们先计算U’=U-0x10000,然后将U’写成二进制形 式:yyyy yyyy yyxx xxxx xxxx,U的UTF-16编码(二进制)就是:110110yyyyyyyyyy 110111xxxxxxxxxx。

  • * 为什么U’可以被写成20个二进制位?*

    Unicode的最大码位是0x10ffff,减去 0x10000后,U’的最大值是0xfffff,所以肯定可以用20个二进制位表示。例如:Unicode编码0x20C30,减去0x10000后, 得到0x10C30,写成二进制是:0001 0000 1100 0011 0000。用前10位依次替代模板中的y,用后10位依次替代模板中的x,就得到:1101100001000011 1101110000110000,即0xD843 0xDC30。
    按照上述规则,Unicode编码0x10000-0x10FFFF的UTF-16编码有两个 WORD,第一个WORD的高6位是110110,第二个WORD的高6位是110111。可见,第一个WORD的取值范围(二进制)是11011000 00000000到11011011 11111111,即0xD800-0xDBFF。第二个WORD的取值范围(二进制)是11011100 00000000到11011111 11111111,即0xDC00-0xDFFF。

  • 代理区

    为了将一个WORD的UTF-16编码与两个WORD的UTF-16编码区分开 来,Unicode编码的设计者将0xD800-0xDFFF保留下来,并称为代理区(Surrogate):
    D800-DB7F ║ High Surrogates ║ 高位替代
    DB80-DBFF ║ High Private Use Surrogates ║ 高位专用替代
    DC00-DFFF ║ Low Surrogates ║ 低位替代
    高位替代就是指这个范围的码位是两个WORD的UTF-16编码的第一个WORD。低位替代就 是指这个范围的码位是两个WORD的UTF-16编码的第二个WORD。

  • 高位专用替代是什么意思?怎么由UTF-16 编码推导Unicode编码。

    我们来解答这个问题,顺便看看怎么由UTF-16 编码推导Unicode编码。
    如果一个字符的UTF-16编码的第一个WORD在0xDB80到0xDBFF之间,那么它的 Unicode编码在什么范围内?我们知道第二个WORD的取值范围是0xDC00-0xDFFF,所以这个字符的UTF-16编码范围应该是 0xDB80 0xDC00到0xDBFF 0xDFFF。我们将这个范围写成二进制:
    1101101110000000 11011100 00000000 - 1101101111111111 1101111111111111
    按照编码的相反步骤,取出高低WORD的后10位,并拼在一起,得到
    1110 0000 0000 0000 0000 - 1111 1111 1111 1111 1111
    即0xe0000-0xfffff,按照编码的相反步骤再加上0x10000,得到 0xf0000-0x10ffff。这就是UTF-16编码的第一个WORD在0xdb80到0xdbff之间的Unicode编码范围,即平面15和平 面16。因为Unicode标准将平面15和平面16都作为专用区,所以0xDB80到0xDBFF之间的保留码位被称作高位专用替代。

5.UTF-32

  • UTF-32编码以32位无符号整数为单位。

    Unicode的UTF-32编码就是其对应的 32位无符号整数。
    字节序
    根据字节序的不同,UTF-16可以被实现为UTF-16LE或UTF-16BE,UTF- 32可以被实现为UTF-32LE或UTF-32BE。例如:
    Unicode编码 ║ UTF-16LE ║ UTF-16BE ║ UTF32-LE ║  UTF32-BE
    0x006C49 ║ 49 6C ║ 6C 49 ║ 49 6C 00 00 ║ 00 00 6C 49
    0x020C30 ║ 43 D8 30 DC ║ D8 43 DC 30 ║ 30 0C 02 00 ║ 00 02 0C 30

  • 那么,怎么判断字节流的字节序呢?

    Unicode标准建议用BOM(Byte Order Mark)来区分字节序,即在传输字节流前,先传输被作为BOM的字符”零宽无中断空格”。这个字符的编码是FEFF,而反过来的FFFE(UTF- 16)和FFFE0000(UTF-32)在Unicode中都是未定义的码位,不应该出现在实际传输中。下表是各种UTF编码的BOM:
    UTF编码 ║ Byte Order Mark
    UTF-8 ║ EF BB BF
    UTF-16LE ║ FF FE
    UTF-16BE ║ FE FF
    UTF-32LE ║ FF FE 00 00
    UTF-32BE ║ 00 00 FE FF


  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值