String 知必会

String 对象实现方式

在众多版本中,String对象做了大量优化,下图是版本推进的演化过程:

String优化过程

1.在Java1.6之前的版本中,String对象是对char数组进行了封装实现的对象。
2.而从Java1.7到1.8版本,Java对String类做了一些改变。String类不在有offset和count两个变量。
3.从Java1.9开始,则将char[]字段改为了byte[]字段,又维护了一个新属性coder它是一个编码格式的标识。

那么为什么这样修改呢?
如果仔细观察会发现一个char字符占16位,2字节。这个情况下,在存储拉丁语系的字符(占一个字节的字符)不需要太宽的char,这样无疑会很浪费,所以在1.9中为了节省内存,使用了占8位1字节的byte[]来存放字符串。(但是原来char[]时,字符串最大长度是数组本身长度的限制,在数组同样大小的前提下,byte[]存储能力理论上是退化了一倍的。)

而新属性 coder的作用是,在计算字符串长度或者使用indexOf()函数时,需要根据这个字段判断如何计算字符串长度,1代表UTF-16,0代表Latin-1(单字节编码)。

Java对象不可变性

1.保证String的安全性,final修饰属性属性不可改变引用,修饰类则不可继承,这里防止了String类继承被篡改其中的某些方法。

2.线程安全性,在并发场景下,多个线程同时读一个资源,是不会引发竟态条件的。只有对资源做写操作才有危险。不可变对象不能被写,所以线程安全。

3.不可变可以实现字符串常量池,在创建String对象时通常有两种方式,String str = “abc”;另一种是String str = new String(“abc”);
第一种方式创建字符串对象时,JVM会检查该对象是否在字符串常量池中,如果在,就返回对象引用,否则新的字符串将在常量池中被创建。这种方式可以减少同一个值的字符串对象重复创建,节约内存。
new String这种方式,首先在编译类文件时"abc"会被放入到常量结构中,类被加载时,"abc"将会在常量池中创建;在调用new时JVM调用String的构造函数,同时引用常量池中的"abc"字符串,在堆中创建一个String对象;最后将引用赋值给str。

对象优化

1.拼装超长字符串

在日常中如果使用String相加拼接字符串会产生多个对象么?例如:

String str ="aa"+"bb"+"cc";

理论上上述代码会先产生aa对象,再生成aabb对象,最后再生成aabbcc对象。
但是实际运行过程中,发现只有一个对象生成,编译后的代码如下:

String str = "aabbcc";

在大多数情况下java还是十分智能的,会自己优化实际代码,但是在循环中使用"+"拼接,会产生大量无意义的StringBuider对象,如下:

String str = "abcdef";

for(int i=0; i<1000; i++) {
      str = str + i;
}

反编译后:

String str = "abcdef";
for(int i=0; i<1000; i++) {
   str = (new StringBuilder(String.valueOf(str))).append(i).toString();
}

在此场景下应使用StringBuilder来避免循环中重复产生对象的行为(多线程场景下使用StringBuffer)。

2.合理使用String.intern节省内存

在日常开发中字符串最长使用,但是其中很多都是重复的,如果能避免创建重复字符串,可以有效降低内存消耗和对象创建开销。

来看一段代码:

String str = new String("abc");
s.intern();
String str1 = "abc";
System.out.println(s == s2);
String s3 = new String("a") + new String("b");
s3.intern();
String s4 = "ab";
System.out.println(s3 == s4);

上面这段代码的执行结果在不同版本的JDK下结果是不同的:
JDK 1.6 : false false
JDK 1.7 : false true

在分析内容前先理解下常量池这个概念。

常量池指的是在编译期就已经被确定,并且被保存在已编译的class文件中的一些数据,它包括了关于类、方法、接口等中的常量,也包括字符串常量。

例如:

  String s0="abc";
  String s1="abc";
  String s2="a"+"bc";
  String s3 = new String("abc");
  System.out.println( s0==s1 );
  System.out.println( s0==s2 );
  System.out.println( s0==s3 );

结果: true true false

因为Java会保证字符串常量只有一个拷贝,s0和s1都是字符串常量,这个在编译期就可以确定了,所以s0==s1;而 s2中"a"和"bc"也都是字符串常量,当一个字符串由多个字符串常量组成,它本身肯定也是字符串常量,并且jvm编译时也会将代码"a"+“bc"优化成"abc”。
new String() 创建的字符串不是常量,是在堆内存中开辟地址空间,所以new String()创建的字符串不放入常量池中,s0 != s3。

步入正题,来看一下String的intern()方法,它可以达到优化内存的作用,其效果在JDK1.6和1.7中表现并不一样来看下面这段代码:

String s = new String("1");
s.intern();
String s2 = "1";
System.out.println(s == s2);
String s3 = new String("a") + new String("b");
s3.intern();
String s4 = "ab";
System.out.println(s3 == s4);
String s5 = new String("ja") + new String("va");
s5.intern();
String s6 = "java";
System.out.println(s5 == s6);

1.6运行结果:false false false;
1.7及以上:true false false;

在1.6中,常量池在方法区,其位于臭名昭著的永久代,intern()会把首次遇到的字符串实例复制到永久代中,返回的也是这个永久代中字符串实例的引用,以此来达到,如果对字符串赋值,常量池中该值已存在则不会创建新的值,直接返回常量池中该值引用。***(PermGen的空间是有限的,它主要存储一些加载类的信息,常量池,方法片段等内容,默认大小只有4m,并且基本不会被FullGC之外的垃圾回收照顾到,所以如果有大量长字符串放入其中,OOM可能就会光顾。此方法1.6慎用!)***

在1.7中,字符串常量池迁移到了heap中。

  • s3生成了三个最终对象常量池中的"a",“b"和Heap中s3引用指向的对象。此时s3引用对象内容是"ab”,但是此时常量池中并没有"ab"。 (结合类加载过程,先在常量池中创建"a",“b” 调用String构造函数生成两个匿名对象,然后进行字符串拼接最终对象)
  • 接来下调用s3.intern()函数,将s3中的"ab" 放入到String常量池中,因为常量池中并没有此对象,则常量池直接存储了堆中的引用,直接指向了s3,也就是说引用地址相同。
  • 最后String s4 =“ab” 是显示声明的,因此直接去常量池中创建,创建时发现已经存在该对象了,此时将指向s3 引用对象 的引用返回,s3 和 s4的引用一致 所以s3 == s4。

s和s2对象中 String s=new String(“1”);中生成了两个对象,常量池中的"1"和Heap中的字符串对象。s.intern()s去常量池中创建,发现"1"已存在。接下来s2="1"显示声明时,直接返回了指向常量池中的对象,结果s!= s2。
如图:
http://ptavvqw3y.bkt.clouddn.com/String.png

其中s5.s6的例子是练习中发现的一个坑,既其代码内容基本与s4一致,结果却不相同,经验证常量池中会维护一个常用的字符串常量池其中就有"java"字符串,所以使用了intern后直接将引用指向了默认对象,所以s5 != s6。

小结
  • 将String常量池 从 Perm 区移动到了 Java Heap区
  • String.intern() 方法时,如果存在堆中的对象,会直接返回对象的引用,而不会重新创建对象.
适用场景

1.Twitter在发布消息的时候,会产生一个地址信息,以当时用户规模预估服务器需要32G的内存来存储地址信息。

public class Location {
    private String city;
    private String region;
    private String countryCode;
    private double longitude;
    private double latitude;
} 

考虑到中间有很多用户地址信息是有重合的,比如,国家,省份,城市等,此时将这部分信息单独列出一个类,以减少重复。

public class SharedLocation {
	private String city;
	private String region;
	private String countryCode;
}
public class Location {
	private SharedLocation sharedLocation;
	double longitude;
	double latitude;
}

通过优化存储大小减到了20G左右,此时再利用了String.intern来节省内存,具体做法是,每次赋值时使用intern方法,如果常量池中有相同的值,就会重复使用该对象,一开始的对象就可以被回收掉。这种方式可以使重复性非常高的地址信息存储大小从20G降到几百兆。

SharedLocation sharedLocation = new SharedLocation();
sharedLocation.setCity(messageInfo.getCity().intern());
sharedLocation.setCountryCode(messageInfo.getRegion().intern());
sharedLocation.setRegion(messageInfo.getCountryCode().intern());
Location location = new Location();
location.set(sharedLocation);
location.set(messageInfo.getLongitude());
location.set(messageInfo.getLatitude());
使用不当场景

详看:https://tech.meituan.com/2014/03/06/in-depth-understanding-string-intern.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值