jdk9为何要将String的底层实现由char[]改成了byte[]

最新推荐文章于 2024-09-03 07:30:00 发布

吉诺比利20

最新推荐文章于 2024-09-03 07:30:00 发布

阅读量1.7k

点赞数 4

分类专栏： Java 文章标签： java 字符串

原文链接：https://www.zhihu.com/question/447224628/answer/1824574900

版权

Java 专栏收录该内容

64 篇文章 4 订阅

订阅专栏

先说结论：出于节省String占用jvm的内存空间。

优化String节省jvm内存空间的必要性

(1)调查统计发现一个java系统，堆里面存活最多的对象之一就是String对象，所以优化String的占用空间是很有意义的，因为String是实际开发中使用最频繁的类。否则，你去优化一个平时根本不怎么用到的类，那么就很鸡肋了。
在这里插入图片描述

上图是基于java8运行的spring boot系统对象数量的快照，我们可以看到String对象有82039个，占用了1968936字节的内存，占用内存排在第5位。

这里注意的是java8中String内部实现是char[]，我们可以看到内存占用排在第2位的就是char[]。

char[]对象有89140个，内存占用了11354176字节，从个数数量级上来看，你会发现char[]对象其实大部分来源于String对象内部维护的那个char[]。

(2)调查统计还发现了一个事实，就是开发者使用到的文本字符串中的字符，大部分使用一个字节来表示就足够了。

String a = ?;

上面的字符串，大家平时都填的什么？

作为来自中国的开发者，开发经历中大部分填的都是英文字母和数字，也很少往上面填自己的母语中文。而这些字符，普遍使用一个字节就能表示了。

如何优化空间的

(1)char类型的数据在jvm中占用了两个字节的空间，使用的是UTF-16编码。

jvm规范中是如下描述的：

char, whose values are 16-bit unsigned integers representing Unicode
code points in the Basic Multilingual Plane, encoded with UTF-16, and
whose default value is the null code point (’\u0000’)。

所以使用char[]来表示String就导致了即使String中的字符单个字节就能表示，还是得占用了两个字节，而实际开发中使用频率最高的却是单字节的字符。

(2)优化为byte[]，并提供了另外一种编码可能性。

仅仅优化为byte[]是不够的，关键是提供了ISO-8859-1/Latin-1编码可能（Latin-1就是ISO-8859-1）。

Latin-1编码是用单个字节来表示字符，比两个字节的utf-16节省了一半空间。
所以String类中多了一个编码标志位coder，用来表示使用的是utf-16编码，还是Latin-1编码。

/**
 * The identifier of the encoding used to encode the bytes in
 * {@code value}. The supported values in this implementation are
 *
 * LATIN1
 * UTF16
 *
 * @implNote This field is trusted by the VM, and is a subject to
 * constant folding if String instance is constant. Overwriting this
 * field after construction will cause problems.
 */
private final byte coder;

java会根据字符串的内容自动设置相应的编码，要么UTF16，要么LATIN1。

对于这种：