HashSet的数据不见了!
- 问题描述
在开发过程中,我遇到了惊悚了一幕。经过断点调试,没有发现任何问题:数据还在HashSet中。但是测试结果无情的告诉我,他不在了。
示例代码:
@Test
public void testSetChange() {
Set<Measurement> mSet = new HashSet<Measurement>();
Measurement m = new Measurement();
m.setId("id");
m.setName("mName");
mSet.add(m);
ResourceType type = new ResourceType();
type.setName("typeName");
type.setPluginName("pluginName");
type.setCategory("category");
m.setResourceType(type);
System.out.println("是否包含:" + mSet.contains(m));
mSet.clear();
mSet.add(m);
System.out.println("是否包含:" + mSet.contains(m));
}
public class Measurement implements Serializable {
private String name;
private ResourceType resourceType;
@Override
public String toString() {
StringBuilder sb = new StringBuilder();
if (resourceType != null) {
sb.append(resourceType.toString()).append('_');
}
sb.append(name);
return sb.toString().toUpperCase();
}
@Override
public boolean equals(Object obj) {
if (obj==null || !(obj instanceof Measurement)) {
return false;
}
return this.toString().equalsIgnoreCase(obj.toString());
}
@Override
public int hashCode() {
return generateHash(this.toString());
}
private int generateHash(String str) {
return 31 * str.hashCode() + 19;
}
}
public class ResourceType implements Serializable {
private String pluginName;
private String name;
@Override
public String toString() {
StringBuilder sb = new StringBuilder();
sb.append(pluginName).append('_').append(name);
return sb.toString().toUpperCase();
}
@Override
public boolean equals(Object obj) {
if (obj==null || !(obj instanceof ResourceType)) {
return false;
}
return this.toString().equalsIgnoreCase(obj.toString());
}
@Override
public int hashCode() {
return generateHash(this.toString());
}
private int generateHash(String str) {
return 37 * str.hashCode() + 11;
}
}
代码过程很简单:初始化set,并在set中添加一个对象。修改对象后,set的contain方法返回false。清空set后重新添加,则contain方法返回true。
- 问题分析
对于这个问题,网上已经有了很多解释:m的hashcode发生了变化,导致不能成功定位。
接下来分析hashcode到底引起了什么问题。
首先,我们先看下hashset和hashmap的实现原理。
hashset本身没有什么功能,只是对于hashmap的封装。
hashset包含一个hashmap实例,将set中的信息按hashmap的key存放。hashmap的实现是问题的关键。
hashmap的存储结构:
(table中的编号不是实际计算值。这里只是表示第一个,第二个。)
hashmap中存在一个table数组,数组的每个值类似于一个桶,桶内存放了hashcode匹配的元素。桶内的元素采用链表形式存储。
hashmap的存取过程:
当元素需要存放时,hashmap根据key的hashcode找到table对应的桶,然后将元素插在桶列表的头。(如果key已经存在,则替换原来的位置)
当需要取元素时,hashmap根据key的hashcode找到table对应的桶,然后遍历桶中元素,返回key匹配的value。
数据哪里去了最终分析:
终于要分析找不到数据的原因了。
假设第一次添加m时,计算的hashcode为code1,则数据放在table的第indexFor(code1)桶中。
当m的信息发生变化后,m的存放位置依然为indexFor(code1)桶。但是m的hashcode变成code2.
然而调用contains方法时,map根据m的hashcode值code2,到第indexFor(code2)的桶中找。
结果就是即使是同一个对象,也无法找到。
结论:
问题发生的根本原因是,存入数据后,hashcode值发生了变化。
默认的hashcode计算方法是根据地址来的,不会有问题。
我们重写后,提供了太多的不稳定因素,随时会导致code发生变化。