图说String(一)：String的存储方式

最新推荐文章于 2024-08-09 09:22:04 发布

微笑的小小刀

最新推荐文章于 2024-08-09 09:22:04 发布

阅读量2.8k

点赞数 1

分类专栏： java jvm那些事文章标签： java jam String byte

本文链接：https://blog.csdn.net/weixiaodedao/article/details/82961765

版权

java 同时被 2 个专栏收录

10 篇文章 1 订阅

订阅专栏

jvm那些事

2 篇文章 0 订阅

订阅专栏

每一个本java的书或是每一套讲java视频课都不会忘了String . 这个类是承载着我们对计算机的输入，承载着计算机对我们的输出。毫不夸张的说，String架起了我们和计算机沟通的友谊的桥梁！
学习主图：
在这里插入图片描述
如上图所示。我们在新建了三个String变量：s1 = “java” ,s2=“技术大本营”,s3=“java技术大本营”。
从字面上来看，s3应该是s1和s2直接拼接起来的。但实际上在jvm里面的存储s3并不等于s1+s2。

见下图idea中debug的数据（基于jdk11）
在这里插入图片描述
s1是 4位长的byte数组（一个字节表示一个字型），s2是10位长的byte数组（两个字节表示一个字型），而s3是18位长的byte数组（两个字节表示一个字型）。
细心的同学可能已经观察到了，在s3中是把s1每位后面补了0凑齐的两字节表示一个字型。

在调试页面，我们用了idea的 class level watch 查看了coder方法的值。相当于调用String.coder();
s1的返回结果是0。 s2和s3的返回结果是1。
我们打开String的源码（基于jdk11）可以看到：
在这里插入图片描述

关于COMPACT_STRINGS完整的说明可以查看源码说明，就在这个字段上面，我就搬一句话：
If String compaction is disabled, the bytes in {@code value} are
always encoded in UTF16.
如果禁用了压缩，那bytes始终是用UTF16进行编码的。
在这里插入图片描述
在源码中，我们可以看到关于0和1的定义：0是LATIN1方式编码。1是UTF16的方式编码。如下图所示：我们通过class level watch 调用isLatin1()方法，可以看到 s1是通过latin1编码。s2和s3是通过UTF16编码。

总结：String 在计算机中都是以 byte数组的方式进行存储。根据存储的值不一样，会选择LATIN1和UTF16两种不同的方式。 LATIN1一个字节代表一个字型。UTF16两个字节代码一个字型。String的其他方法调用，也都是基于这个byte数组。