Java 基础 — 字符串

最新推荐文章于 2024-03-25 11:59:50 发布

IT__learning

最新推荐文章于 2024-03-25 11:59:50 发布

阅读量719

点赞数 5

分类专栏： Java基础文章标签： java

本文链接：https://blog.csdn.net/IT__learning/article/details/116674688

版权

Java基础专栏收录该内容

28 篇文章 10 订阅

订阅专栏

概述

字符串是多个字符连接起来组合成的字符序列。字符串分为可变的字符串和不可变的字符串两种。

（1）不可变的字符串：当字符串对象创建完毕之后，该对象的内容(上述的字符序列)是不能改变的，一旦内容改变就会创建一个新的字符串对象。Java中的String类的对象就是不可变的。

（2）可变的字符串：StringBuilder 类和 StringBuffer 类的对象就是可变的；当对象创建完毕之后，该对象的内容发生改变时不会创建新的对象，也就是说对象的内容可以发生改变，当对象的内容发生改变时，对象保持不变，还是同一个。
在这里插入图片描述

String、StringBuffer、StringBuilder 都实现了 CharSequence 接口，字符串在底层其实就是char[]，虽然它们都与字符串相关，但是其处理机制不同。

String 类为什么要设计为不可变的

1）便于实现字符串池（String pool）
2）多线程安全
3）避免安全问题
4）加快字符串处理速度

String 真的不可变吗?

String 类是用 final 关键字修饰的，不可被继承，仅此而已。

我们通过阅读源码知道，字符串是由字符组成，字符存在 value 数组中。
private final char value[]; 
Value 被 final 修饰，只能保证引用不被改变，但是 value 所指向的堆中的数组，才是真实的数据，只要能够操作堆中的数组，依旧能改变数据。而且 value 是基本类型构成，那么一定是可变的，即使被声明为 private，我们也可以通过反射来改变。

所以 String 的不可变性仅仅是正常情况下的不可变，但绝非完全的不可变。

一、String 类（字符串常量）

String 类表示不可变的字符串，当前 String 类对象创建完毕之后，该对象的内容(字符序列)是不变的，因为内容一旦改变就会创建一个一个新的对象。
String 类是 final 类，不可以继承。对 String 类型最好的重用方式是组合而不是继承。

public final class String implements java.io.Serializable, Comparable<String>, CharSequence {
    /** The value is used for character storage. */
    private final char value[];

    /** Cache the hash code for the string */
    private int hash; // Default to 0

    /** use serialVersionUID from JDK 1.0.2 for interoperability */
    private static final long serialVersionUID = -6849794470754667710L;
   }

1、String 类实例的创建

方式一：通过字面量赋值创建，需要注意这里是双引号：""，区别与字符char类型的单引号：’’；
String s1 = "laofu"; 
方式二：通过构造器创建：new 一个 String 对象的时候如果字符串常量池里边有该字面量那么就不会放，如果字符串常量池没有就会放该字面量到字符串常量池中。
 String s2 = new String(“laofu”);

两种方式的区别：

1）方式一：String s1 = “456”;

有可能只创建一个String对象，也有可能创建不创建String对象；如果在常量池中已经存在”456”，那么对象s1会直接引用，不会创建新的String对象；否则，会先在常量池先创建常量”456”的内存空间，然后再引用。

2）方式二：String s2 = new String(“456”);

在堆内存中单独开辟出一个内存空间存放“456”对象，使 s2 指向它。如果常量池中没有 “456” 则在字符串常量池中创建该字面量，如果有则不创建。 该种方式会创建 1 个或者 2 个对象：常量池有 “456” 字段是 1 个，常量池没有 “456” 字段则是 2 个。

上图中的常量池：用于存储常量的地方内存区域，位于方法区中。常量池又分为编译常量池和运行常量池两种：
编译常量池：当把字节码加载进 JVM 的时候，其中存储的是字节码的相关信息（如：行号等）。
运行常量池：其中存储的是代码中的常量数据。

① 使用字符串字面量创建的字符串，也就是单独使用""引号创建的字符串都是直接量，在编译期就会将其存储到常量池中；

② 使用 new String("") 创建的对象会存储到堆内存中，在运行期才创建；

③ 使用只包含直接量的字符串连接符如"aa" + "bb"创建的也是直接量，这样的字符串在编译期就能确定，所以也会存储到常量池中；

④ 使用包含String直接量的字符串表达式(如"aa" + s1)创建的对象是运行期才创建的，对象存储在堆中，因为其底层是创新了StringBuilder对象来实现拼接的；

2、String 对象的比较

① 使用 ”==” 号：用于比较对象引用的内存地址是否相同

② 使用 equals 方法：在Object类中和”==”号相同，但在自定义类中，建议覆盖equals方法去实现比较自己内容的细节；由于String类覆盖已经覆盖了equals方法，所以其比较的是字符串内容。

3、String对象的空值

① 对象引用为空，此时s1没有初始化，也在JVM中没有分配内存空间。
String s1 = null; 
② 对象内容为空字符串，比如：此时对象s2已经初始化，值为“”，JVM已经为其分配内存空间。
 String s2 = "";

4、字符串拼接

Java 中的字符串可以通过是 “+” 实现拼接，那么代码中字符串拼接在JVM中又是如何处理的呢？我们通过一个例子说明：通过比较拼接字符串代码编译前后的代码来查看JVM对字符串拼接的处理。
在这里插入图片描述
JVM会对字符串拼接做一些优化操作。

① 如果字符串字面量之间的拼接（如"aa" + “bb”），创建的也是直接量，这种情况在编译期就能确定，所以也会存储到常量池中；
② 如果是对象之间拼接，或者是对象和字面量之间的拼接，亦或是方法执行结果参与拼接，String内部会使用StringBuilder先来获取对象的值，然后使用append方法来执行拼接。这种情况只能在运行期才能确定变量的值和方法的返回值。

二、StringBuilder 与 StringBuffer（字符串变量）

StringBuffer 和 StringBuilder都表示可变的字符串，两种的功能方法都是相同的。但唯一的区别：

1、StringBuffer

StringBuffer中的方法都使用了synchronized修饰符，表示同步操作，在多线程并发的时候可以保证线程安全，但在保证线程安全的时候，对其性能有一定影响，会降低其性能。

public final class StringBuffer extends AbstractStringBuilder implements java.io.Serializable, CharSequence{

    private transient char[] toStringCache;

    static final long serialVersionUID = 3388685877147921107L;
   }

（1）构造函数

StringBuffer() 	// 构造一个空的字符串缓冲区，并且初始化为 16 个字符的容量。
StringBuffer(int length) 	// 创建一个空的字符串缓冲区，并且初始化为指定长度 length 的容量。
StringBuffer(String str) 	// 创建一个字符串缓冲区，并将其内容初始化为指定的字符串内容 str，字符串缓冲区的初始容量为 16 加上字符串 str 的长度。

（2）常用方法

2、StringBuilder

StringBuilder中的方法都没有使用了synchronized修饰符，线程不安全，正因为如此，其性能较高。
对并发安全没有很高要求的情况下，建议使用StringBuilder，因为其性能很高。

（1）构造函数
在这里插入图片描述
（2）常用方法

三、String、StringBuilder 与 StringBuffer

由于 String 类的操作是产生新的 String 对象，而 StringBuilder 和 StringBuffer 只是一个字符数组的扩容而已，所以 String 类的操作要远慢于 StringBuffer 和 StringBuilder。
大部分情况下：StringBuilder > StringBuffer > String

String 类型和 StringBuffer 类型的主要性能区别其实在于 String 是不可变的对象, 因此在每次对 String类型进行改变的时候其实都等同于生成了一个新的 String 对象，然后将指针指向新的 String 对象。每次生成对象都会对系统性能产生影响，特别当内存中无引用对象多了以后， JVM 的 GC 就会开始工作，那速度是一定会相当慢的。

而如果是使用 StringBuffer 类则结果就不一样了，每次结果都会对 StringBuffer 对象本身进行操作，而不是生成新的对象，再改变对象引用。

1、使用选择

使用 String 类的场景：在字符串不经常变化的场景中可以使用 String 类，例如常量的声明、少量的变量运算。
使用 StringBuffer 类的场景：在频繁进行字符串运算（如拼接、替换、删除等），并且运行在多线程环境中，则可以考虑使用 StringBuffer，例如 XML 解析、HTTP 参数解析和封装。
使用 StringBuilder 类的场景：在频繁进行字符串运算（如拼接、替换、和删除等），并且运行在单线程的环境中，则可以考虑使用 StringBuilder，如 SQL 语句的拼装、JSON 封装等。

2、相互转换

（1）String 转换为 StringBuilder、StringBuffer：

public StringBuilder(String s);		// 通过构造方法就可以实现把String转换为StringBuilder
public StringBuffer(String s);		// 通过构造方法就可以实现把String转换为StringBuffer

（2） StringBuilder、StringBuffer 转换为String：

public String toString()	//通过toString()就可以实现把 StringBuilder 、StringBuffer 转换为String。

四、字符串在 JVM 中的存放位置

1、字符串常量池

字符串常量池用于存储编译期间存在的所有字符串实例的引用，以及运行时动态添加的引用。字符串常量池是全局的，只有一个。当我们以 String str = "123"形式创建字符串实例时，首先会去判断字符串常量池中是否有引用指向相同内容的实例，如果有则返回该实例。否则在堆中创建 String 对象并将引用驻留在字符串常量池中。

两个常量池：
（1）Class 文件常量池：存储了字面量以及符号引用

1）字面量：文本字符串，例如类中有这样一行代码 private String str = “123”，那么常量池中会出现 str、123、 Ljava/lang/String（类的描述方式：L + 全限定名）等字面量。
2）符号引用：包含类和接口的全限定名、字段的简单名称及描述符、方法的简单名称及描述符；

（2）运行时常量池

运行时常量池在 jdk8 ，位于元空间内。用于存储从 class 文件中读取的信息，包括常量池。当类被加载时，虚拟机会将 Class 文件中的静态数据转化为运行时常量池中的运行时数据。至于由常量转化成了什么，以及对常量做了什么操作，下面第六节会进行讲解。运行时常量池对于 Class 文件常量池的重要特征是具有动态性。Java 中的常量不单单能在编译期间产生，也可以在运行期间动态加入。例如 String##intern。

（1）字符串常量池的实现原理

字符串常量池实现的基础是 String 类的不可变性。字符串常量池使用了一个固定长度的哈希表 Hashtable 来存储字符串 (数组 + 链表)，在 JDK 8，默认哈希桶容量为 60031。可以通过启动参数 -XX:+PrintStringTableStatistics 查看哈希桶的实际用量。如果数据过多，频繁出现哈希冲突，导致链表过长，降低查询效率。可以通过启动参数 -XX:StringTableSize= 进行调整哈希桶容量。

（2）String 的 intern 方法

当字符串对象调用 intern 方法时，需要判断该字符串内容是否在字符串常量池中 “首次出现”。
1）如果已经有相同内容的字符串实例，则直接返回字符串常量池中这个实例的引用。
2）如果之前没有相同内容的字符串实例：

JDK6：当调用 intern() 方法时，如果字符串常量池先前已创建出该字符串对象，则返回池中的该字符串的引用。否则，将此字符串对象添加到字符串常量池中，并且返回该字符串的引用；
JDK6+：当调用 intern() 方法时，如果字符串常量池先前已创建出该字符串对象，则返回池中的该字符串的引用。否则，如果该字符串对象已经存在于 Java 堆中，则将堆中此对象的引用添加到字符串常量池中，并且返回该引用；如果堆中不存在，则在池中创建该字符串并返回其引用。（跟1.6的区别是常量池不再存放对象，只存放引用。）

2、字符串常量池在 JVM 中的变化

字符串池是运行时常量池。

（1）在 JDK1.6 中，它在方法区中，属于“永久代”。
在这里插入图片描述

在JDK1.7及以后，它被移除方法区，放在java堆中。在这里插入图片描述
在JDK1.8中，取消了“永久代”，字符串池仍在堆中。

3、不同 JDK 中 String.intern() 的区别

（1）JDK1.6 及以前

在 JDK 1.6中，字符串常量池位于永久代，字符串对象实例位于堆中，调用 intern() 方法尝试将向字符串常量池添加字符串： 如果字符串常量池中存在相等的字符串，则返回字符串常量池中的字符串地址；如果字符串常量池中没有相等的字符串，则会将字符串的内容复制一份到池中，然后返回池中的字符串地址。

String a = "123";
String m = a.intern();
System.out.println(a == m);  //true
 
String b = new String("456");
String n = b.intern();
System.out.println(b == n);  //false

由于两种创建对象的方法都会在常量池中有一份字符串，所以直接返回常量池对象的引用。区别在于，返回的引用地址不同。

String a = new String("1")+new String("2");
String b = a.intern();
System.out.println(a == b);  //false

一步一步来分析，首先第一行 String a = new String(“1”)+new String(“2”); 中应分为三步来完成：分别在堆内存和常量池创建 “1” 字符串，分别在堆内存和常量池创建 “2” 字符串，运算加法，在堆内存中创建 “12” 字符串（注意：由StringBuffer 实现，并不会在常量池中创建）。

此时，走到第二步 a.intern(); 根据 JDK1.6 时的流程是在常量池中拷贝一份“12”字符串，然后将字符串返回给b。可以清楚的看到 a 和 b 的引用地址并不一样，所以返回 false。

（2）JDK1.7 及以后

从 JDK 1.7 开始，字符串常量池从永久代移动到了Java 堆中，通过 new 新建的字符串对象也位于 Java 堆中，调用 intern() 方法尝试将向字符串常量池添加字符串：如果字符串常量池中没有相等的字符串，则会将Java堆中字符串的地址复制一份到池中，然后返回池中的字符串的地址，也就是说，此时 intern 方法返回的就是 Java 堆中字符串对象的地址；如果字符串已经在常量池中的话，则返回字符串常量池中的字符串地址，和 JDK1.6 及以前没有任何区别。

String a = "123";
String m = a.intern();
System.out.println(a == m);  //true
 
String b = new String("456");
String n = b.intern();
System.out.println(b == n);  //false

当常量池中没有字符串时情况就发生了变化：

String a = new String("1")+new String("2");
String b = a.intern();
System.out.println(a == b);  //true

当执行到 String b = a.intern(); 时就发生了变化：

可以看到，JDK1.6及以前是将堆内存的对象拷贝一份到常量池中，JDK1.6 以后是将此对象的引用放入常量池中。所以 JDK1.6 以后，实际上 b 指向的是堆内存中的“12”，即和 a 指向是相同的，所以返回 true。
因此，JDK1.6以后的intern()方法可以有效的减少内存的占用，提高运行时的性能。

总结

为了避免浪费内存，JDK 1.7 及以后的 String.intern() 和 JDK 1.6的有所差异：不存在字符串时，不再复制内容，而是直接复制对象的引用（Java堆中对象的地址）。

4、编译期字符串字面量

编译器字面量：在未执行 intern() 方法的情况下，编译期能确定的字符串字面量将自动被放入字符串常量池中。此时，String 引用指向将是字符串常量池中的地址。
注意：一定得是未执行 intern() 方法的情况下，不然在 JDK 1.7 及以后，String 引用看起来获取的字符串常量池中的地址，但实际指向的是 Java 对中的对象地址。

哪些是编译期能确定的字符串字面量？

（1）使用双引号括起来的" "的字符串
在这里插入代码片

public static void main(String[] args) {
    String str1 = new String("hello"); // 编译期的字符串字面量hello，将自动放入池中
    String str2 = str1.intern(); // intern() 方法时，池中已有相等的字符串
    System.out.println("str1 == str2: " + (str1 == str2)); // 返回false 
  }

上面的 new String() 其实将创建两个hello 字符串，一个是编译期的字符串字面量，被自动放入字符串常量池中；一个是 new String() 后，在 Java 堆中的创建 String 对象。

（2） 字符串拼接时，只要不是引用和字符串字面量的拼接，最终都可以在编译期确定

public static void main(String[] args) {
    String str1 = new String("hello, " + "world"); // 编译期，拼接出字符串字面量 hello, world
    System.out.println(str1.intern() == str1); // 返回 false

    String str3 = new String("test") + "Method"; // 编译期，只能确定 test 和 Method 两个字符串字面量
    System.out.println(str3.intern() == str3); // 返回 true
   }

（3）特殊情况： 如果引用指向的是 final 类型（编译期常量），则带引用的字符串拼接在编译期可以确定

public static void main(String[] args) {    
	final String string = "hello, ";
    String str3 = new String(string + "world"); // string为final类型，编译期的值是确定的，等价于 "hello, " + "world"的拼接
    System.out.println(str3.intern() == str3); // 返回false 
    }

IT__learning

关注

5
点赞
踩
17

收藏

觉得还不错? 一键收藏
13
评论
Java 基础 — 字符串

字符串是多个字符连接起来组合成的字符序列。字符串分为可变的字符串和不可变的字符串两种。（1）不可变的字符串：当字符串对象创建完毕之后，该对象的内容(上述的字符序列)是不能改变的，一旦内容改变就会创建一个新的字符串对象。Java中的String类的对象就是不可变的。（2）可变的字符串：StringBuilder类和StringBuffer类的对象就是可变的；当对象创建完毕之后，该对象的内容发生改变时不会创建新的对象，也就是说对象的内容可以发生改变，当对象的内容发生改变时，对象保持不变，还是同一个。St
复制链接

扫一扫