JSK1.8 String类部分关键源码分析

本文基于JDK1.8中的String类,看源码时无意发现String类中几个比较有意思的地方,特此记录下。

String类的两个重要属性,final的字符数组和int的hash值,还有序列化相关的两个字段,这里不写;

final char value[]初始化后将是不可以变的,与String类的final关键字相呼应,保证的字符串的不变性;特别是在初始化字符串对象时,如果常量池中存在该字符串,可以将value直接指向常量池中的字符串,这样既节省内存又方便,同时由于是final类型,也没有多线程并发问题。

private int hash在JVM中,int类型默认初始化为0,在未调hashCode时hashCode一直是0,只有在调一次时还会生成。

    /** The value is used for character storage. */
    private final char value[];        

    /** Cache the hash code for the string */
    private int hash; // Default to 0

hashCode()方法

    // hashCode生成规则,s[0]*31^(n-1) + s[1]*31^(n-2) + ... + s[n-1]
    public int hashCode() {
        int h = hash;
        if (h == 0 && value.length > 0) {    // 只有第一次调用时才会生成一个hashCode并赋值
            char val[] = value;

            for (int i = 0; i < value.length; i++) {
                h = 31 * h + val[i];
            }
            hash = h;
        }
        return h;
    }

compareTo()方法, 这个方法有意思的地方在while循环中,return c1 - c2,这种写法,直接通过字符的ASCII码相减得到一个int值,进行返回,高下立判断:

public int compareTo(String anotherString) {
    int len1 = value.length;
    int len2 = anotherString.value.length;
    int lim = Math.min(len1, len2);
    char v1[] = value;
    char v2[] = anotherString.value;

    int k = 0;
    while (k < lim) {
        char c1 = v1[k];
        char c2 = v2[k];
        if (c1 != c2) {
            return c1 - c2;
        }
        k++;
    }
    return len1 - len2; 
  }

构造方法String(String original),通过String构造自身的构造方法,省事,不需要通过Arrays.copyOf重新做一份copy,直接应用之前String类的value和赋值hash值,反正是final的:

public String(String original) {
        this.value = original.value;
        this.hash = original.hash;
    }

intern()方法,这是个本地方法,通过此方法可以将字符串数组放到方法区(不同JDK版本方法区叫法位置可能不一样,这也是需要研究的),合适的时候调用intern方法,可以减少创建对象的个数,减少内存开销(共用了内存啊)。

 public native String intern();

**substring(int beginIndex)方法,**截取子字符串,可以看出在JDK1.8中截取字串是依赖于根据原字符串的字符串数组,通过copy操作生成字串的字符串数组,即char value[]:

public String substring(int beginIndex) {
    if (beginIndex < 0) {
        throw new StringIndexOutOfBoundsException(beginIndex);
    }
    int subLen = value.length - beginIndex;
    if (subLen < 0) {
        throw new StringIndexOutOfBoundsException(subLen);
    }
    return (beginIndex == 0) ? this : new String(value, beginIndex, subLen);
}

public String[] split(String regex, int limit),split方法,String类中比较重要的而且容易埋坑出错的方法:

public String[] split(String regex, int limit) {
    /* 
      第一种情况:
     (1)只有一个字符,并且这个字符非正则表达式中的元字符,即非正则表达式中的特殊字符
     (2)只有两个字符并且第一个字符是转义字符,第二个字符是非数字,字母的以及以及utf-16之间的字符,换而言之,由于条件1中规定了非正则表达式的特殊字符,如果是用了正则表达式的特殊字符,并且转义了,将匹配这一项
     第二种情况使用正则表达式进行分割;
     */
    char ch = 0;
    if (((regex.value.length == 1 &&
         ".$|()[{^?*+\\".indexOf(ch = regex.charAt(0)) == -1) ||      // 
         (regex.length() == 2 &&
          regex.charAt(0) == '\\' &&
          (((ch = regex.charAt(1))-'0')|('9'-ch)) < 0 &&
          ((ch-'a')|('z'-ch)) < 0 &&
          ((ch-'A')|('Z'-ch)) < 0)) &&
        (ch < Character.MIN_HIGH_SURROGATE ||
         ch > Character.MAX_LOW_SURROGATE))
    {
        int off = 0;
        int next = 0;
        boolean limited = limit > 0;        // 如果有填写limit,并且大于0
        ArrayList<String> list = new ArrayList<>();
        while ((next = indexOf(ch, off)) != -1) {   
            if (!limited || list.size() < limit - 1) {  // 如果没有配置限制,或者有配置限制的情况,拆分结果list没有超过限制的情况
                list.add(substring(off, next));      // list中添加字串
                off = next + 1;
            } else {    // last one                        // 如果有分段个数限制,并且是最后一个
                //assert (list.size() == limit - 1);
                list.add(substring(off, value.length));         //把后面剩余的全部放入
                off = value.length;
                break;
            }
        }
        // If no match was found, return this
        if (off == 0)             // 如果有没有分割符号,完整返回
            return new String[]{this};

        // Add remaining segment
        if (!limited || list.size() < limit)            // 如果没有限制或者结果大小小于限制个数
            list.add(substring(off, value.length));

        // Construct result
        int resultSize = list.size();         // 构造结果,最终的结果在这下面生成
        if (limit == 0) {                // 在没有限制的情况下
            while (resultSize > 0 && list.get(resultSize - 1).length() == 0) {   // 后面所有的空串都会被清掉
                resultSize--;
            }
        }
        String[] result = new String[resultSize];             // 这里生成最终结果
        return list.subList(0, resultSize).toArray(result);
    }
    return Pattern.compile(regex).split(this, limit);
}

坑就在,在没有限制的情况下,拆分出来的部分,如果后面部分为空串,这些空串都会被抛弃。很多项目中都喜欢用split(","),如果拆分出的后几段是空,数组的长度是不够的,这样会存在数组越界异常。

以下有时间再整理出两篇关于String中split中的坑的问题,以及常见的那种创建字符串是会创建几个对象的问题,即字符串常量池问题,再之后是JDK个版本中JVM内存模型及相关变化,仅供记录。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值