术语:
一个很常见的错误根源在于没有覆盖hashCode方法。在每个覆盖了equals方法的类中,也必须覆盖hashCode方法,如果不这样的话,就会违反了Object.hashCode的通用约定,从而导致该类无法结合所有基于散列的集合一起正常动作,比如说HashMap,HashSet,Hashtable。
以下是Object规范中关于HashCode的约定:
1、在应用程序的执行期间,只要对象的equals方法的比较操作所用到的信息没有被修改,那么对这同一个对象调用多次,hashCode方法必须都始终如一地返回同一个整数。在同一个应用程序的多次执行中,每次执行所返回的整数可以不一致。
这里我理解的是:在一个应用执行的过程中,如果对同一个对象调用多次则hashCode方法应该返回同个整数,如果在应用程序的不同执行过程中,这个值不一定是固定的。也就是说只要求保证在一次运行过程中的唯一性。
2、如果两个对象根据equals(Object)方法比较是相等的。那么调用这两个对象中任意一个对象的hashCode方法都必须产生同样的整数结果。
3、如果两个对象根据equals(Object)方法比较是不相等的,那么调用这两个对象中的任意一个对象的hashCode方法,则不一定要产生不同的整数结果。但是程序员应该知道,给不相等的对象截然不同的整数结果,有可能提高散列表的性能。
根据类的equals方法,两个不同的实例在逻辑上可能是相等的。但是根据Object类的 hashCode方法,它们仅仅是两个没有任何共同之处的对象(Object类中的hashCode()是一个本地方法,跟踪JVM好像是根据对象头的25个比特算出来的,具体见http://xinglongbing.iteye.com/blog/343484,这25位的bit使得对象各不相同)。考虑下面的例子:
public final class PhoneNumber {
private final short areaCode;
private final short prefix;
private final short lineNumber;
public PhoneNumber(int areaCode, int prefix,
int lineNumber) {
rangeCheck(areaCode, 999, "area code");
rangeCheck(prefix, 999, "prefix");
rangeCheck(lineNumber, 9999, "line number");
this.areaCode = (short)areaCode;
this.prefix = (short)prefix;
this.lineNumber = (short)lineNumber;
}
private static void rangeCheck(int arg, int max,
String name) {
if (arg < 0 || arg > max)
throw new IllegalArgumentException();
}
@Override
public boolean equals(Object o) {
if (o == this)
return true;
if (!(o instanceof PhoneNumber))
return false;
PhoneNumber pn = (PhoneNumber) o;
return pn.lineNumber == lineNumber &&
pn.prefix == prefix &&
pn.areaCode == areaCode;
}
// Broken - no hashCode method!
// Remainder omitted
}
如果把这个对象用在HashMap中用做键,那么逻辑上相等的对象却查寻不到相同的结果。例如
Map<PhoneNumber, String> m = new HashMap<PhoneNumber, String>();
m.put(new PhoneNumber(707, 867, 5309), "test");
当使用和new PhoneNumber(707, 867, 5309)逻辑相等的对象来做为参数调用get方法时,却不能像期待的一个得到"test"。因此,put方法把电话号码对象存在在一个散列桶里,而get方法却在另一个散列桶中查找这个电话号码。即使这两个实例刚好被放到了一个散列桶里,get方法也必定会返回null,因为HashMap有一项优化,可以将每个项相关联的散列码缓存起来,如果散列码不匹配,也不必检验对象的等同性。
修正这个问题只需要为PhoneNumber类提供一个适当的hashCode方法,但是在选取hashCode方法时应该使其趋向于“为不相等的对象产生不相等的散列码”,这也就是第三条约定中的含义。理想的情况下,散列函数应该把集合中不相等的实例均匀地分布到所有可能的散列值上,要想完全达到这种理想的情形是非常困难的。但是相对接近这种理想的情形倒是不太困难。下面是解决办法:
1、把某个非零的常数值,比如说17保存在一个名为result的int类型的变量中。
2、对于对象中的每个关键域f(指equals方法中涉及的每个域),完成以下步骤:
a、为该域计算int类型的散列码c:
1) 如果该域是boolean类型,则计算(f ? 1 : 0)
2) 如果该域是byte、char、short或者int类型,则计算(int)f
3) 如果该域是long类型,则计算(int)(f^(f>>>32))。
4) 如果该域是float类型,则计算Float.floatToIntBits(f)。
5) 如果该域是double类型,则计算Double.doubleToLongBits(f),然后按照步骤2.a.3),为得到的long类型值计算散列值。
6) 如果该域是一个对象引用,并且该类的equals方法通过递归地调用equals方式来比较这个域,则同样为这个域递归地调用hashCode。如果需要更复杂的比较,则为这个域计算一个范式,然后针对这个范式调用hashCode。如果这个域的值为null,则返回0(不绝对,但通常是0)。
7) 如果该域是一个数组,则要把每个元素当做单独的域来处理。也就是说,递归地应用上面的规则,对每个重要的元素计算一个散列码。然后再用2中的方法组合起来。如果数组中的每个元素都很重要,则可以用Arrays.hashCode方法。
b、按照下面的公式,把步骤2.a计算得到的散列码c合并到result中。
result = 31 * result + c;
3、返回result。
4、写完了hashCode方法后,编写单元测试来验证一下,如果相等的实例有着不相等的散列码,则要找到原因加以修正。
在计算散列码的过程中,要把冗余域排除在外,也就是那些可以由其他域计算得出的域,必须要排除equals比较计算中没有用到的域,否则很有可能违反hashCode的约定的第二条。
步骤2.b中的乘法部分使得散列值信赖于域的顺序,如果一个类包含多个相似的域,这样的乘法运算就会产生一个更好的散列函数。之所以选31是因为它是一个奇素数,如果乘数是偶数,并且乘法溢出的话,信息就丢失掉了,因为32等于2^5,所以相当于是左移五位,有可能导致信息全部丢失。因为与2相乘等价于移位运算,使用素数的好处并不是很明显,但是习惯上都是使用素数。31有个很好的特性,即用移位和减法来代替乘法,可得到更好的性能:31 * i == (i << 5) - i,也就当于是(i*32) - i。
例如把如上的规则用在PhoneNumber上
@Override
public int hashCode() {
int result = 17;
result = 31 * result + areaCode;
result = 31 * result + prefix;
result = 31 * result + lineNumber;
return result;
}
如果一个类是不可变的,并且计算散列码的开销比较大,那么就该考虑把散列码缓存在对象内部,而不是每次请求的时候都重新计算,如果这种类型的大多数对象会被用做散列键,就应该在创建实例的时候计算出散列码,否则可以选择“延迟初始化”散列码,一直到hashCode的每一次调用的时候才初始化,方法如下:
// Lazily initialized, cached hashCode
private volatile int hashCode;
@Override
public int hashCode() {
int result = hashCode;
if (result == 0) {
result = 17;
result = 31 * result + areaCode;
result = 31 * result + prefix;
result = 31 * result + lineNumber;
hashCode = result;
}
return result;
}
不要试图从散列码计算中排除一个对象的关键部分来提高性能。虽然这样可能使计算的速度得到提升,但是效果并不见得会好,可以会导致散列表慢到根本无法使用,如果因此大量的实例映射到极少的散列码上,那基于散列的集合将会显示出平方级的性能。Java平台类库中的许多类如 String、Integer、Date,都可以把它们的hashCode方法返回确切值规定为该实例的一个函数,一般来说,这并不是一个好主意,因为这样做严格地限制了在将来的版本中改进散列函数的能力。