解析Java中的char (Java--Unicode--UTF-16)

Java语言的char类型是16位的;
Java支持Unicode,Java对Unicode支持采用的是UTF-16的编码实现;
在UTF-16下,Java的一个Unicode字符(代码点)由1或2个char(代码单元)表示。

Some sources for these fact:

http://baike.baidu.com/view/40801.htm?fr=ala0 ----> Unicode与UTF-8,UTF-16,UTF-32的关系


Core java(Volnume 1) Page 45 ----> 代码点,代码单元的概念


顺便贴出一个程序:


public class UnicodeShow {
public static void main(String[] args) {
String string = "我们都是中国人\uD843\uDC30";

/*返回这个字符串的代码单元数,也就是问"我们都是中国人"中有多少个16位,UTF-16中16位为一个代码单元。*/
System.out.println("The size of string \"我们都是中国人\uD843\uDC30\" is " + string.length());

System.out.println("The Unicode of 我 is \\u" + Integer.toHexString((short)string.charAt(0)));
}
}


其实在UCS-4标准中,有些代码点比如一些非常少见的字符,包括一些生僻汉字是4字节编码的即2个代码点。只是UCS-4标准很多设备还不支持。于是\uD843\uDC30显示一个方框\u20C30。

这是我的程序运行结果:
The size of string "我们都是中国人
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值