最近在研究GO语言,其中提到 字符串就是一串固定长度的字符连接起来的字符序列。则由此产生联想,在JVM中String的长度限制是多少?而且在实际应用(智慧社区)中也遇到过相似场景:前端同学将图片转码成Base64的形式用字符串存储到后端,然后运行时再转回来。虽然这么做有点奇葩,但是存在即合理吧。今天,就来谈一下这个String在JVM中到底有没有限制。
JVM中STRING的存储
String其实是使用一个char类型的数组来存储字符串中的字符,其源码如下:
public final class String implements java.io.Serializable, Comparable<String>, CharSequence { /** The value is used for character storage. */ private final char value[]; /** * Returns the length of this string. * The length is equal to the number of Unicode * code units in the string. * * @return the length of the sequence of characters represented by this * object. */ public int length() { return value.length; }}
敲黑板!!!重点来了
数组的长度是int类型,Java中定义数组是可以给数组指定长度的,如果不指定,则默认根据数组元素来指定。
int[] arr = {1,2,3,4,5,6}int[] lenArr = new int[5]
整数在java 中是有限制的,看这里或看以下源码就可得知,int的最大限制为231 -1
public final class Integer extends Number implements Comparable<Integer> { /** * A constant holding the minimum value an {@code int} can * have, -231. */ @Native public static final int MIN_VALUE = 0x80000000; /** * A constant holding the maximum value an {@code int} can * have, 231-1. */ @Native public static final int MAX_VALUE = 0x7fffffff;}
那么说明了数组的长度是0~231 -1,大约为4GB。
看到这儿是不是不太相信,我也不太信,让事实来说话
再加一个字符
不是说好的4G吗?怎么肥事?
public class TestString { final static String s = "" + "65534个字符串" +"1"+ ""; public static void main(String[] args) { System.out.println(s.length()); System.out.println(s); }}
因为我设置的是final类型 ,所以根据JVM规范,字面量形式的字符串,在编译时会将其放在常量池中,这时候JVM对这个常量池存储String类型做出了限制:
常量池中,每个 cp_info 项的格式必须相同,它们都以一个表示 cp_info 类型的单字节 “tag”项开头。后面 info[]项的内容 由tag 的类型所决定。
我们看到String类型的表示是 CONSTANT_String ,我们来看下CONSTANT_String具体是如何定义的。
这里定义的 u2 string_index 表示的是常量池的有效索引,其类型是CONSTANT_Utf8_info 结构体表示的,这里我们需要注意的是其中定义的length我们看下面这张图。
在class文件中u2表示的是无符号数占2个字节单位,我们知道1个字节占8位,2个字节就是16位 ,那么2个字节能表示的范围就是2^16- 1 = 65535
所以总结如下:
字符串的内容是由一个字符数组 char[] 来存储的,由于数组的长度及索引是整数,且String类中返回字符串长度的方法length() 的返回值也是int ,所以通过查看java源码中的类Integer我们可以看到Integer的最大范围是2^31 -1,由于数组是从0开始的,所以数组的最大长度可以使【0~231-1】通过计算是大概4GB。
但是通过翻阅java虚拟机手册对class文件格式的定义以及常量池中对String类型的结构体定义我们可以知道对于索引定义了u2,就是无符号占2个字节,2个字节可以表示的最大范围是216 -1 = 65535。其实是65535,但是由于JVM需要1个字节表示结束指令,所以这个范围就为65534了。超出这个范围在编译时期是会报错的,但是运行时拼接或者赋值的话范围是在整形的最大范围。