Unicode字符集
Unicode字符集将characters映射到integer code points。例如,Latin字母A赋的是code point 65。Unicode的容量超过了100万个字符,足够容纳来自世界上手稿(scripts)中的每一个字符。当前版本的Unicode 4.1定义了来自许多语言的97,655个不同字符。
最前面的128个Unicode字符(0~127)和ASCII字符集是一致的。ASCII空格是32;因此32也是Unicode空格。
紧接着的128个Unicode字符(128~255)和ISO standard 8859-1定义的Latin-1字符集是一致的。
Latin-1的一个轻微的变体被Windows所利用,再加上各种重读字符,元音变音,乱七八糟的问号,以及其他在大多数西欧语言中编写文本需要用到的其他字符。
Unicode分割成了块。例如,字符0~127是基本的Latin块,其中包含了ASCII。字符128~255是Latin扩展。
尽管内部,Java可以处理完整的Unicode data(毕竟,code point只是numbers),并不是所有的Java环境都能够显示所有Unicode字符。最大的问题就是缺少字体。