HashSet介绍
此类实现 Set 接口,由哈希表(实际上是一个 HashMap 实例,对于HashMap的分析可以参见另外一篇博文Java 集合框架源码分析(三)——HashMap )支持。
它不保证 set 的迭代顺序;特别是它不保证该顺序恒久不变。此类允许使用 null 元素。
此类为基本操作提供了稳定性能,这些基本操作包括 add、remove、contains 和 size,假定哈希函数将这些元素正确地分布在桶中。对此 set 进行迭代所需的时间与 HashSet 实例的大小(元素的数量)和底层 HashMap 实例(桶的数量)的“容量”的和成比例。因此,如果迭代性能很重要,则不要将初始容量设置得太高(或将加载因子设置得太低)。
HashSet类层次结构如下
HashSet类实现了Cloneable接口支持克隆,实现了Serialzable接口,支持序列化。
HashSet源码剖析
HashSet源码如下(基于Sun JDK 1.7),加入了比较详细的注释。
package java.util;
public class HashSet<E>
extends AbstractSet<E>
implements Set<E>, Cloneable, java.io.Serializable
{
static final long serialVersionUID = -5024744406713321676L;
private transient HashMap<E,Object> map;
// Dummy value to associate with an Object in the backing Map
private static final Object PRESENT = new Object();
//构造一个新的空 set,其底层 HashMap 实例的默认初始容量是 16,加载因子是 0.75。
public HashSet() {
map = new HashMap<>();
}
//构造一个包含指定 collection 中的元素的新 set。
public HashSet(Collection<? extends E> c) {
map = new HashMap<>(Math.max((int) (c.size()/.75f) + 1, 16));
addAll(c);
}
// 构造一个新的空 set,其底层 HashMap 实例具有指定的初始容量和指定的加载因子。
public HashSet(int initialCapacity, float loadFactor) {
map = new HashMap<>(initialCapacity, loadFactor);
}
//构造一个新的空 set,其底层 HashMap 实例具有指定的初始容量和默认的加载因子(0.75)。
public HashSet(int initialCapacity) {
map = new HashMap<>(initialCapacity);
}
//构造一个新的set,底层使用LindedHashMap 并具有指定的初始容量和指定的加载因子。
HashSet(int initialCapacity, float loadFactor, boolean dummy) {
map = new LinkedHashMap<>(initialCapacity, loadFactor);
}
//返回对此 set 中元素进行迭代的迭代器。
public Iterator<E> iterator() {
return map.keySet().iterator();
}
//返回此 set 中的元素的数量(set 的容量)。
public int size() {
return map.size();
}
//set是否为空,如果此 set 不包含任何元素,则返回 true。
public boolean isEmpty() {
return map.isEmpty();
}
//如果此 set 包含指定元素,则返回 true。 更确切地讲,当且仅当此 set 包含一个满足 (o==null ? e==null : o.equals(e)) 的 e 元素时,返回 true。
public boolean contains(Object o) {
return map.containsKey(o);
}
// 如果此 set 中尚未包含指定元素,则添加指定元素。
public boolean add(E e) {
return map.put(e, PRESENT)==null;
}
// 如果指定元素存在于此 set 中,则将其移除。
public boolean remove(Object o) {
return map.remove(o)==PRESENT;
}
// 从此 set 中移除所有元素。
public void clear() {
map.clear();
}
//clone方法
public Object clone() {
try {
HashSet<E> newSet = (HashSet<E>) super.clone();
newSet.map = (HashMap<E, Object>) map.clone();
return newSet;
} catch (CloneNotSupportedException e) {
throw new InternalError();
}
}
//序列化函数
private void writeObject(java.io.ObjectOutputStream s)
throws java.io.IOException {
// Write out any hidden serialization magic
s.defaultWriteObject();
// Write out HashMap capacity and load factor
s.writeInt(map.capacity());
s.writeFloat(map.loadFactor());
// Write out size
s.writeInt(map.size());
// Write out all elements in the proper order.
for (E e : map.keySet())
s.writeObject(e);
}
//反序列化
private void readObject(java.io.ObjectInputStream s)
throws java.io.IOException, ClassNotFoundException {
// Read in any hidden serialization magic
s.defaultReadObject();
// Read in HashMap capacity and load factor and create backing HashMap
int capacity = s.readInt();
float loadFactor = s.readFloat();
map = (((HashSet)this) instanceof LinkedHashSet ?
new LinkedHashMap<E,Object>(capacity, loadFactor) :
new HashMap<E,Object>(capacity, loadFactor));
// Read in size
int size = s.readInt();
// Read in all elements in the proper order.
for (int i=0; i<size; i++) {
E e = (E) s.readObject();
map.put(e, PRESENT);
}
}
}
重点解析
从源码中我们可以看到以下几点:
- 本质上HashSet还是基于HashMap实现的,很多操作调用了HashMap的方法。
- HashSet的实现不是同步的。
- 添加至HashSet的值不可重复的,当然这也是 所有实现Set类接口的类都应该遵循的准则。
那么它又是如何保证添加元素不能重复的呢?
重点关注一下 add方法
/**
* @param e 将添加到此set中的元素。
* @return 如果此set尚未包含指定元素,则返回true。
*/
public boolean add(E e) {
return map.put(e, PRESENT)==null;
}
可以看到这里将一个Object类型的PRESENT变量当做V放进了Map中,而把元素e当做键K。
由于 HashMap 的 put() 方法添加 key-value 对时,当新放入 HashMap 的 Entry 中 key 与集合中原有 Entry 的 key 相同(hashCode()返回值相等,通过 equals 比较也返回 true),新添加的 Entry 的 value 会将覆盖原来 Entry 的 value(HashSet 中的 value 都是PRESENT),但 key 不会有任何改变,因此如果向 HashSet 中添加一个已经存在的元素时,新添加的集合元素将不会被放入 HashMap中,原来的元素也不会有任何改变,这也就满足了 Set 中元素不重复的特性。