避免hashcode重复

最新推荐文章于 2023-03-03 10:52:36 发布

挨踢的架构师

最新推荐文章于 2023-03-03 10:52:36 发布

阅读量2.2w

点赞数 1

分类专栏： Tech 文章标签： url 网络爬虫 string 算法测试 java

本文链接：https://blog.csdn.net/scariii/article/details/7237042

版权

Tech 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

众所周知，Java中如果用String的hashcode作为key，将String保存到HashSet中，这样做是不太可靠的。原因就在于，String的hashcode有可能会重复。比如有这样一个场景，一个网络爬虫需要将所有爬取过的URL保存下来，以便于判断新获取的URL是否已经被访问过，这时就需要有一块内存空间来保存URL，或是保存能够唯一标识URL的ID，比如URL的MD5值或hashcode。如果用hashcode作为URL的ID进行保存的话，当然肯定会比较省内存，但是它带来的一个问题就是，URL通常比较长，其hashcode重复的可能性比较高（我测试了20w个真实的网站URL，结果hashcode重复了2～3个）。一旦出现hashcode重复，这就意味着后面得到的URL会被当成之前访问过的URL，从而被丢弃掉，如果这是一个比较顶层的URL，那也就意味着，可能有大批的子URL无法被获取。这样的话，爬虫爬取的内容肯定是很不完整的，某些情况下，这是无法容忍的。

String.hashCode()方法的算法如下：str.charAt(0) * 31^n-1 + str.charAt(1) * 31^n-2 + ... + str.charAt(n-1)

据说算法中31这个数字是对英文字符进行优化后产生的一个最佳数字，但是碰上字母大小写或是一些特殊字符，再或者是中文字符，它就不灵了，很容易重复，举个例子：

"Aa" = 'A' * 31 + 'a' = 2112
"BB" = 'B' * 31 + 'B' = 2112

要想hashcode不重复，一个简单的做法就是扩大hashcode的取值范围，由原来4个字节的int型，变为8个字节的long型，这样算出来的hashcode重复率大大降低，低到几乎可以忽略不计。以下是改进后的hashcode算法：

	static final long[] byteTable = createLookupTable();
	static final long HSTART = 0xBB40E64DA205B064L;
	static final long HMULT = 7664345821815920749L;

	private static final long[] createLookupTable() {
		long[] byteTable = new long[256];
		long h = 0x544B2FBACAAF1684L;
		for (int i = 0; i < 256; i++) {
			for (int j = 0; j < 31; j++) {
				h = (h >>> 7) ^ h;
				h = (h << 11) ^ h;
				h = (h >>> 10) ^ h;
			}
			byteTable[i] = h;
		}
		return byteTable;
	}
	public static long hashCode(CharSequence cs) {
		long h = HSTART;
		final long hmult = HMULT;
		final long[] ht = byteTable;
		final int len = cs.length();
		for (int i = 0; i < len; i++) {
			char ch = cs.charAt(i);
			h = (h * hmult) ^ ht[ch & 0xff];
			h = (h * hmult) ^ ht[(ch >>> 8) & 0xff];
		}
		return h;
	}

不过该方法有待测试验证。。。