深入研究 Java 中的 char 类型

最新推荐文章于 2023-03-08 09:48:30 发布

IllTamer

最新推荐文章于 2023-03-08 09:48:30 发布

阅读量470

点赞数 2

分类专栏：小知识文章标签： java

本文链接：https://blog.csdn.net/qq_51026595/article/details/123982947

版权

小知识专栏收录该内容

11 篇文章 0 订阅

订阅专栏

众所周知在 Java 中，char 类型是可以储存汉字的，你可以以 char='人' 的方式对其进行赋值，也可以直接以指定编码进行赋值如：char = '\u4eba'。

能达到这种效果的原因是 Java 的 char 类型比较特殊，它是以 Unicode 编码对字符进行存储，即每个 char 类型有 16bit，这一点从允许直接使用 Unicode 码的形式给 char 类型赋值就可以得知。显然，Java 中的 char 类型以 UTF-16 规范进行编码。

注意：Unicode 的实现方式不同于编码方式。一个字符的 Unicode 编码是确定的。但是在实际传输过程中，由于不同系统平台的设计不一定一致，以及出于节省空间的目的，对 Unicode 编码的实现方式有所不同，具体由UTF(UCS Transformation Format)规范规定，常见的UTF规范包括UTF-8、UTF-16、UTF-32。

了解了这一点，我们再来看以下一段代码

    public static void main(String[] args) {
        String s = "人";
        final byte[] bytes1 = s.getBytes(StandardCharsets.UTF_8);
        System.out.println(bytes1.length);
        final byte[] bytes2 = s.getBytes(StandardCharsets.UTF_16);
        System.out.println(bytes2.length);
    }

执行结果

3
4

为什么在实际测试中单字符以 UTF-8 的编码输出的是标准的三字节，以 UTF-16 编码输出的却不是预期的两字节而是四字节呢？

实际上，多出来的两个字节是因为在 Unicode 编码中，要特地指定字节序——即字节的顺序。大于一个字节的数据在内存中存放的的顺序有两种：大字节序 BIG-ENDIAN 和小字节序 LITTLE-ENDIAN。

传输协议中，需要先传一个标识，一个叫 “ZERO WIDTH NO-BREAK SPACE" 的字符，它的编码是 FEFF。而 FFFE 在 Unicode 中是不存在的字符，所以不应该出现在实际传输中。Unicode规范建议在传输字节流前，先传输字符 "ZERO WIDTH NO-BREAK SPACE"。这样就多出了两个字节。

经过实际测试我们可以明显发现在以 UTF-16 编码的字节数组中字节序的存在：

    public static void main(String[] args) {
        String s = "人";
        final byte[] bytes1 = s.getBytes(StandardCharsets.UTF_16);
        for (byte b : bytes1) {
            System.out.print(b + " ");
        }
        System.out.println();
        s = "人们";
        final byte[] bytes2 = s.getBytes(StandardCharsets.UTF_16);
        for (byte b : bytes2) {
            System.out.print(b + " ");
        }
    }

-2 -1 78 -70 
-2 -1 78 -70 78 -20

其中每行输出的起始两个数字 -2 -1 对应的正是以 8 位 bit 表示的 FE、FF。而 BIG-ENDIAN、LITTLE-ENDIAN 的说法也早在对应字符标准中被提及

    /**
     * Sixteen-bit UCS Transformation Format, big-endian byte order
     */
    public static final Charset UTF_16BE = Charset.forName("UTF-16BE");
    /**
     * Sixteen-bit UCS Transformation Format, little-endian byte order
     */
    public static final Charset UTF_16LE = Charset.forName("UTF-16LE");

IllTamer

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深入研究 Java 中的 char 类型

众所周知在 Java 中，char 类型是可以储存汉字的，你可以以 char='人' 的方式对其进行赋值，也可以直接以指定编码进行赋值如：char = '\u4eba'。能达到这种效果的原因是 Java 的 char 类型比较特殊，它是以 Unicode 编码对字符进行存储，即每个 char 类型有 16bit，这一点从允许直接使用 Unicode 码的形式给 char 类型赋值就可以得知。显然，Java 中的 char 类型以 UTF-16 规范进行编码。注意：U...
复制链接

扫一扫