Unicode字符集

Unicode字符集

 

Unicode字符集将characters映射到integer code points。例如,Latin字母A赋的是code point 65。Unicode的容量超过了100万个字符,足够容纳来自世界上手稿(scripts)中的每一个字符。当前版本的Unicode 4.1定义了来自许多语言的97,655个不同字符。

 

最前面的128个Unicode字符(0~127)和ASCII字符集是一致的。ASCII空格是32;因此32也是Unicode空格。

 

紧接着的128个Unicode字符(128~255)和ISO standard 8859-1定义的Latin-1字符集是一致的。

Latin-1的一个轻微的变体被Windows所利用,再加上各种重读字符,元音变音,乱七八糟的问号,以及其他在大多数西欧语言中编写文本需要用到的其他字符。

 

Unicode分割成了块。例如,字符0~127是基本的Latin块,其中包含了ASCII。字符128~255是Latin扩展。

 

尽管内部,Java可以处理完整的Unicode data(毕竟,code point只是numbers),并不是所有的Java环境都能够显示所有Unicode字符。最大的问题就是缺少字体。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值