避免hashcode重复

众所周知,Java中如果用String的hashcode作为key,将String保存到HashSet中,这样做是不太可靠的。原因就在于,String的hashcode有可能会重复。比如有这样一个场景,一个网络爬虫需要将所有爬取过的URL保存下来,以便于判断新获取的URL是否已经被访问过,这时就需要有一块内存空间来保存URL,或是保存能够唯一标识URL的ID,比如URL的MD5值或hashcode。如果用hashcode作为URL的ID进行保存的话,当然肯定会比较省内存,但是它带来的一个问题就是,URL通常比较长,其hashcode重复的可能性比较高(我测试了20w个真实的网站URL,结果hashcode重复了2~3个)。一旦出现hashcode重复,这就意味着后面得到的URL会被当成之前访问过的URL,从而被丢弃掉,如果这是一个比较顶层的URL,那也就意味着,可能有大批的子URL无法被获取。这样的话,爬虫爬取的内容肯定是很不完整的,某些情况下,这是无法容忍的。


String.hashCode()方法的算法如下:str.charAt(0) * 31n-1 + str.charAt(1) * 31n-2 + ... + str.charAt(n-1)

据说算法中31这个数字是对英文字符进行优化后产生的一个最佳数字,但是碰上字母大小写或是一些特殊字符,再或者是中文字符,它就不灵了,很容易重复,举个例子:

"Aa" = 'A' * 31 + 'a' = 2112
"BB" = 'B' * 31 + 'B' = 2112


要想hashcode不重复,一个简单的做法就是扩大hashcode的取值范围,由原来4个字节的int型,变为8个字节的long型,这样算出来的hashcode重复率大大降低,低到几乎可以忽略不计。以下是改进后的hashcode算法:

	static final long[] byteTable = createLookupTable();
	static final long HSTART = 0xBB40E64DA205B064L;
	static final long HMULT = 7664345821815920749L;

	private static final long[] createLookupTable() {
		long[] byteTable = new long[256];
		long h = 0x544B2FBACAAF1684L;
		for (int i = 0; i < 256; i++) {
			for (int j = 0; j < 31; j++) {
				h = (h >>> 7) ^ h;
				h = (h << 11) ^ h;
				h = (h >>> 10) ^ h;
			}
			byteTable[i] = h;
		}
		return byteTable;
	}
	public static long hashCode(CharSequence cs) {
		long h = HSTART;
		final long hmult = HMULT;
		final long[] ht = byteTable;
		final int len = cs.length();
		for (int i = 0; i < len; i++) {
			char ch = cs.charAt(i);
			h = (h * hmult) ^ ht[ch & 0xff];
			h = (h * hmult) ^ ht[(ch >>> 8) & 0xff];
		}
		return h;
	}

不过该方法有待测试验证。。。

  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值