代码点指编码表(比如Unicode)中某个字符的代码值(数字),在Unicode标准中,代码点采用十六进制书写,书写时前面加U+,比如U+0041是字母A的代码点.
Unicode的代码点可以分为17个代码级别。第一个代码级别称为基本的多语言级别,代码点从U+0000到U+FFFF,其余16个附加级别,代码点从U+10000到U+10FFFF,其中包含了一些辅助字符。
UTF-16编码采用不同长度的编码表示所有的Unicode编码。基本的多语言级别,每个字符用16位表示;而辅助字符采用一对连续的代码单元进行编码。这样构成的编码值一定落入基本的多语言级别中空闲的2048字节内,通常成为替代区域。U+D800--U+DBFF用于第一个代码单元,U+DC00--U+DFFF用于第二个代码单元。
java中的代码单元指表示编码表字符的最小存储单元,用16位表示
Unicode 代码点 | U+0041 | U+00DF | U+6771 | U+10400 | ||||||||||
表示字形 | ||||||||||||||
UTF-32 代码单元 |
|
|
|
| ||||||||||
UTF-16 代码单元 |
|
|
|
| ||||||||||
UTF-8 代码单元 |
|
|
|
|