Java中码点和代码单元
前言
码点和代码单元这两个概念还是在《Java核心技术 卷一》发现的,这也是我看过这本书里面前五章中比较有用的一个知识点(PS:毕竟Java开发都一年了,基础应用都差不多了),以前都没听过。
概念
在介绍这个概念之前,建议大家先去看看一些编码方面的知识。《编码格式简介(ANSI、GBK、GB2312、UTF-8、GB18030和 UNICODE)》,这篇文章讲的挺好。每个国都有把自己的语言编码,于是出现了各种各样的编码(美国的ASCII,中国的GBK,俄罗斯的KOI-8等),如果你不安装相应的编码,就无法解释相应编码想表达的内容。最后 ISO 一起创造了一种编码 UNICODE ,这种编码非常大,大到可以容纳世界上任何一个文字和标志。所以只要电脑上有 UNICODE 这种编码系统,无论是全球哪种文字,只需要保存文件的时候,保存成 UNICODE 编码就可以被其他电脑正常解释。
而在设计Java时,当时的Unicode才发布1.0版本,字符连65536代码值一半都不到,为了方便后面增加,Java使用了16位的Unicode字符集。但是没想到,随着计算机的普及,各国计算机的发展,16位也放不下人类的集体文化财富。
码点是指一个编码表中的某个字符对应的代码值。Unicode的码点分为17个代码级别,第一个级别是基本的多语言级别,码点从U+0000——U+FFFF,其余的16个级别从U+10000——U+10FFFF,其中包括一些辅助字符。
基本的多语言级别,每个字符用16位表示代码单元,而辅助字符采用连续的一对连续代码单元进行编码。
代码实例
下面hi𝕆中的𝕆实际上是是一个辅助字符,它实际上占用了两个char来保存,这个字符串中总共为4个char,3个代码点。
public static void main(String[] args) {
String hello = "hi𝕆";
System.out.println(hello.length());//4
System.out.println(hello.codePointCount(0, hello.length()));//3
}
- 1
- 2
- 3
- 4
- 5
下列代码中显示了每个char的16进制和每个代码单元的16进制。
public static void main(String[] args) {
String hello = "hi𝕆";
int length = hello.length();
for(int i=0;i<length;i++) {
char charAt = hello.charAt(i);
System.out.println(Integer.toHexString(charAt));
}
int codePointCount = hello.codePointCount(0, length);
for(int i=0;i<codePointCount;i++) {
int index = hello.offsetByCodePoints(0,i);
int charAt = hello.codePointAt(index);
System.out.println(Integer.toHexString(charAt));
}
}
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
分为4个代码单元
68
69
d835
dd46
- 1
- 2
- 3
- 4
3个码点
68
69
1d546
- 1
- 2
- 3
而码点转化为字符串则需要使用一些特殊的API,比如:
判读是不是一个码点,上文的d835或者dd46肯定不是
Character.isValidCodePoint(codePoint)
- 1
码点转化为字符串:
char[] chars = Character.toChars(0x1d546);
String str = new String(chars);
System.out.println(str);//𝕆
- 1
- 2
- 3