一文说透 String 的 HashCode

首先需要明确版本,不同版本的实现是不同的。

JDK 1.8 以前

底层的实现是 char[]。

public int hashCode() {
    int h = hash;
    if (h == 0 && value.length > 0) {
        char val[] = value;
 
        for (int i = 0; i < value.length; i++) {
            h = 31 * h + val[i];
        }
        hash = h;
    }
    return h;
}

举个栗子:

计算 "ab" 的 hashCode

1. h = 31 * 0 + 97 = 97

2. h = 31 * 97 + 98 = 3105

JDK 1.8 及之后

底层变为了 byte[] + coder(编码)

private final byte[] value;

private final byte coder; // 识别是什么编码

public int hashCode() {
	int h = hash;
	if (h == 0 && !hashIsZero) {
		h = isLatin1() ? StringLatin1.hashCode(value)
					   : StringUTF16.hashCode(value);
		if (h == 0) {
			hashIsZero = true;
		} else {
			hash = h;
		}
	}
	return h;
}

isLatin1 也就是判断是不是单字节,走对应的方法计算 hashCode

以下是单字节的计算方式。

public static int hashCode(byte[] value) {
	int h = 0;
	for (byte v : value) {
		h = 31 * h + (v & 0xff);
	}
	return h;
}

其实也没什么高大上的,只是使用位运算来提高效率而已。v & 0xff(全1)能保证值一直为 v。

举个例子:还是"ab"

存储在 byte[] 中就是 [97, 98]

1. h = 31 * 0 + (97 & 255) = 31 * 0 + (0110 0001 & 1111 1111) = 0110 0001 = 97

2. h = 31 * 97 + (98 ^ 255) = 31 * 97 + ( 0110 0010 & 1111 1111) = 0110 0010 = 3105

以下是双字节(四字节...偶数字节)的计算方式。

public static int hashCode(byte[] value) {
	int h = 0;
	int length = value.length >> 1;
	for (int i = 0; i < length; i++) {
		h = 31 * h + getChar(value, i);
	}
	return h;
}


@IntrinsicCandidate
// intrinsic performs no bounds checks
static char getChar(byte[] val, int index) {
	assert index >= 0 && index < length(val) : "Trusted caller missed bounds check";
	index <<= 1;
	return (char)(((val[index++] & 0xff) << HI_BYTE_SHIFT) |
				  ((val[index]   & 0xff) << LO_BYTE_SHIFT));
}


/* 确定系统字节序
isBigEndian() 是一个本地方法(native method),它返回一个布尔值来指示系统的字节序是否为大端模式(big-endian)。
在大端模式下,最高有效字节(most significant byte, MSB)存储在最低地址处;而在小端模式(little-endian)下,最高有效字节存储在最高地址处。
*/
private static native boolean isBigEndian();

static final int HI_BYTE_SHIFT;
static final int LO_BYTE_SHIFT;
static {
	if (isBigEndian()) {
		HI_BYTE_SHIFT = 8;
		LO_BYTE_SHIFT = 0;
	} else {
		HI_BYTE_SHIFT = 0;
		LO_BYTE_SHIFT = 8;
	}
}

双字节的其实也是一样的实现,只是多了一个区分系统字节序的操作。

相同hasdCode的字符串

由于 公式为 h = 31 * h + val[i];

即 a1 * 31 + a2 = b1 * 31 + b2

31 * (a1 - b1) = b2 - a2

若 a1 - b1 = 1,b2 - a2 = 31, 此时 HashCode 相同

根据 ASCII 可知,大小写字母之间相差32,那么像 A、b这样的字符就刚好相差 31。

那么,类似于 Aa、BB 这样的字符串的 hashCode 就一定是相同的。

可以测试一下,结果显然是正确的。

String str01 = "Aa";
String str02 = "BB";
System.out.println("Aa.hashCode(): " + str01.hashCode());
System.out.println("BB.hashCode(): " + str02.hashCode());
System.out.println("65 * 31 + 97 = " + (65 * 31 + 97));
System.out.println("66 * 31 + 66 = " + (66 * 31 + 66));

以下是 JAVA 代码实现:

public class HashCodeGenerate {
    private static String[] base = new String[] {"Aa", "BB"};
    /* 生成 2^n 个值 */
    public static List<String> generateN(int n) {
        if(n <= 0) return null;

        List<String> list = generateOne(null);
        for(int i = 1; i < n; ++i) {
            list = generateOne(list);
        }

        return list;
    }
    /* 生成 2 个 hashcode 相同的值 */
    public static List<String> generateOne() {
        return generateOne(null);
    }

    public static List<String> generateOne(List<String> strList) {
        if((null == strList) || (0 == strList.size())) {
            strList = new ArrayList<String>();
            for(int i = 0; i < base.length; ++i) {
                strList.add(base[i]);
            }

            return strList;
        }

        List<String> result = new ArrayList<String>();

        for(int i = 0; i < base.length; ++i) {
            for(String str: strList) {
                result.add(base[i]  + str);
            }
        }

        return result;
    }
    public static void main(String[] args) {
        System.out.println("generateOne(): " + generateOne());
        System.out.println("generateN(2): " + generateN(2));
        System.out.println("generateN(3): " + generateN(3));
        System.out.print("generateN(3) 的hashcode:" + "\t");
        List<String> list = generateN(3);
        for (String str : list) {
            System.out.print(str.hashCode() + "\t");
        }
    }
}

  • 11
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值