深入研究 Java 中的 char 类型

        众所周知在 Java 中,char 类型是可以储存汉字的,你可以以 char='人' 的方式对其进行赋值,也可以直接以指定编码进行赋值如:char = '\u4eba'。

        能达到这种效果的原因是 Java 的 char 类型比较特殊,它是以 Unicode 编码对字符进行存储,即每个 char 类型有 16bit,这一点从允许直接使用 Unicode 码的形式给 char 类型赋值就可以得知。显然,Java 中的 char 类型以 UTF-16 规范进行编码。

注意:Unicode 的实现方式不同于编码方式。一个字符的 Unicode 编码是确定的。但是在实际传输过程中,由于不同系统平台的设计不一定一致,以及出于节省空间的目的,对 Unicode 编码的实现方式有所不同,具体由UTF(UCS Transformation Format)规范规定,常见的UTF规范包括UTF-8、UTF-16、UTF-32。

         了解了这一点,我们再来看以下一段代码

    public static void main(String[] args) {
        String s = "人";
        final byte[] bytes1 = s.getBytes(StandardCharsets.UTF_8);
        System.out.println(bytes1.length);
        final byte[] bytes2 = s.getBytes(StandardCharsets.UTF_16);
        System.out.println(bytes2.length);
    }

        执行结果

3
4

        为什么在实际测试中单字符以 UTF-8 的编码输出的是标准的三字节,以 UTF-16 编码输出的却不是预期的两字节而是四字节呢?

实际上,多出来的两个字节是因为在 Unicode 编码中,要特地指定字节序——即字节的顺序。大于一个字节的数据在内存中存放的的顺序有两种:大字节序 BIG-ENDIAN 和小字节序 LITTLE-ENDIAN。

        传输协议中,需要先传一个标识,一个叫 “ZERO WIDTH NO-BREAK SPACE" 的字符,它的编码是 FEFF。而 FFFE 在 Unicode 中是不存在的字符,所以不应该出现在实际传输中。Unicode规范建议在传输字节流前,先传输字符 "ZERO WIDTH NO-BREAK SPACE"。这样就多出了两个字节。 

        经过实际测试我们可以明显发现在以 UTF-16 编码的字节数组中字节序的存在:

    public static void main(String[] args) {
        String s = "人";
        final byte[] bytes1 = s.getBytes(StandardCharsets.UTF_16);
        for (byte b : bytes1) {
            System.out.print(b + " ");
        }
        System.out.println();
        s = "人们";
        final byte[] bytes2 = s.getBytes(StandardCharsets.UTF_16);
        for (byte b : bytes2) {
            System.out.print(b + " ");
        }
    }
-2 -1 78 -70 
-2 -1 78 -70 78 -20 

        其中每行输出的起始两个数字 -2 -1 对应的正是以 8 位 bit 表示的 FE、FF。而 BIG-ENDIAN、LITTLE-ENDIAN 的说法也早在对应字符标准中被提及

    /**
     * Sixteen-bit UCS Transformation Format, big-endian byte order
     */
    public static final Charset UTF_16BE = Charset.forName("UTF-16BE");
    /**
     * Sixteen-bit UCS Transformation Format, little-endian byte order
     */
    public static final Charset UTF_16LE = Charset.forName("UTF-16LE");
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值