【必须学好】字典、哈希与Map

最新推荐文章于 2024-08-08 11:19:33 发布

置顶 niu0147

最新推荐文章于 2024-08-08 11:19:33 发布

阅读量4.9k

点赞数 2

分类专栏：数据结构与算法

数据结构与算法专栏收录该内容

4 篇文章 0 订阅

订阅专栏

http://blog.csdn.net/cownew/article/details/6478993

HashMap、Map等是很多公司面试、笔试的时候常考的题目，也是实际开发中经常用到的数据结构，必须好好掌握。因此我从《J2EE开发全程实录》中摘取了下面的片段，希望对同学们有帮助。学习时请对照着《数据结构》这门课中“散列”相关的章节复习。

在实际问题中，按照给定的值进行数据查询是经常遇到的，比如，在电话号码簿中查询某个人的电话号码；在图书馆中按照ISBN编号查找某本书的位置；在地图中按照坐标查找某个地点的地名等等。为此，人们创造了一种能够根据记录的关键码(也就是用以标识数据在记录中的存放位置的数据项)方便的检索到对应的记录信息的数据结构，这就是字典(Dictionary)。

2.2.1字典的定义

我们都使用过字典，如英汉字典、成语字典，图书的检索目录、电话簿等也可以看作广义上的字典。在计算机科学中，把字典也当成一种数据结构。

我们把字典定义为“键-值对”(Key-Value Pair)的集合。根据不同的问题，我们为名字和值赋予不同的含义，比如，在英汉字典中，英文单词是名字，此单词的中文解释条目是值；在电话簿中，人名是名字，此人名对应的电话号码是值。

字典最基本的操作包括：find(查找)、add(插入)、remove(删除)，分别用来从字典中检索数据、插入数据和删除数据。在实际存储中，我们将“键-值对”存储于记录中，通过键(也就是“键-值对”中的名字)来标识该“键-值对”。“键-值对”的存放位置和其键之间的对应关系用一个二元组表示：(键,值的位置)。

从字典中查找“键-值对”的最简单方法就是使用数组存储，然后在查找的时候遍历此数组，当遍历到和被查找的“键-值对”的名字相同项的时候，这个“键-值对”就被找到了。这种最朴实的方式肯定是不能满足实际要求的，因此人们发明了一种检索效率非常高的组织字典数据的方法，即哈希表结构。

2.2.2哈希表与哈希方法

哈希方法在“键-值对”的存储位置与它的键之间建立一个确定的对应函数关系hash()，使得每一个键与结构中的一个唯一的存储位置相对应：

存储位置=hash(键)

在搜索时，首先对键进行hash运算，把求得的值当做“键-值对”的存储位置，在结构中按照此位置取“键-值对”进行比较，若键相等，则表示搜索成功。在存储“键-值对”的时候，依照相同的hash函数计算存储位置，并按此位置存放，这种方法就叫做哈希方法，也叫做散列方法。在哈希方法中使用的转换函数hash被称作哈希函数(或者散列函数)。按照此中算法构造出来的表叫做哈希表(或者散列表)。

哈希函数建立了从“键-值对”到哈希表地址集合的一个映射，有了哈希函数，我们就可以根据键来确定“键-值对”在哈希表中的位置的地址。使用这种方法由于不必进行多次键的比较，所以其搜索速度非常快，很多系统都使用这种方法进行数据的组织和检索。

举一个例子，有一组“键值对”：<5,”tom”>、<8,”Jane”>、<12,”Bit”>、<17,”Lily”>、<20,”sunny”>，我们按照如下哈希函数对键进行计算:hash(x)=x%17+3，得出如下结果：hash(5)=8、hash(8)=11、hash(12)=15、hash(17)=3、hash(20)=6。我们把<5,”tom”>、<8,”Jane”>、<12,”Bit”>、<17,”Lily”>、<20,”sunny”>分别放到地址为8、11、15、3、6的位置上。当要检索17对应的值的时候，只要首先计算17的哈希值为3，然后到地址为3的地方去取数据就可以找到17对应的数据是“Lily”了，可见检索速度是非常快的。

2.2.3冲突与冲突的解决

通常键的取值范围比哈希表地址集合大很多，因此有可能经过同一哈希函数的计算，把不同的键映射到了同一个地址上面，这就叫冲突。比如，有一组“键-值对”，其键分别为12361、7251、3309、30976，采用的哈希函数是：

public static int hash(int key)

{

return key%73+13420;

}

则将会得到hash(12361)=hash(7251)=hash(3309)=hash(30976)=13444，即不同的键通过哈希函数对应到了同一个地址，我们称这种哈希计算结果相同的不同键为同义词。

如果“键-值对”在加入哈希表的时候产生了冲突，就必须找另外一个地方来存放它，冲突太多会降低数据插入和搜索的效率，因此希望能找到一个不容易产生冲突的函数，即构造一个地址分布比较均匀的哈希函数。常用的哈希函数包括：直接定址法、数字分析法、除留余数法、乘留余数法、平方取中法、折叠法等。应该根据实际工作中关键码的特点选用适当的方法。

虽然采用合适的哈希方法能够降低冲突的概率，但是冲突仍然是不可避免的，处理冲突的最常用方法就是“桶”算法：假设哈希表有m个地址，就将其改为m个“桶”，其桶号与哈希地址一一对应，每个桶都用来存放互为同义词的键，也就是如果两个不同的键用哈希函数计算得到了同一个哈希地址，就将它们放到同一个桶中，检索的时候在桶内进行顺序检索。

2.2.4Java中的Map接口

字典数据结构如此重要，以至于实际开发中经常需要使用它们。JDK中提供了相关的类供我们使用，从而避免了自己开发字典类的麻烦。

在以前版本的JDK中，最常使用的字典类就是Dictionary抽象类及其实现类Hashtable，不过在新版本的JDK中不推荐读者使用Dictionary抽象类而是使用Map接口，并且由于Dictionary的实现类Hashtable也实现了Map接口，所以我们没有理由不使用Map接口。

Map接口有很多实现类，比如HashMap、TreeMap、Hashtable、SortedMap等，在第三方开源包中也有提供了更多功能的实现类，比如Apache-Commons项目中的LRUMap。最常用的就是HashMap和Hashtable，它们最大的区别就是Hashtable是线程安全的，而HashMap则不是线程安全的，在使用的时候必须进行同步。由于JDK中的工具类java.util.Collections提供了一个synchronizedMap方法，可以将非线程安全的Map接口变量采用装饰者模式改造成线程安全的，因此使用HashMap的场合更多一些，后边的论述也将以HashMap为主。

2.3HashMap

HashMap是Map接口的实现类中最常用的一个，熟练的掌握这个类的使用将会提高解决问题的速度。

HashMap的主要方法

int size()：得到Map中“键-值对”的数量

boolean isEmpty()：Map是否是空的，也就是是否不含有任何“键-值对”

boolean containsKey(Object key)：Map中是否含有以key为键的“键-值对”

boolean containsValue(Object value)：Map中是否含有以value为值的“键-值对”

Object get(Object key)：从Map中得到以key为键的值，如果Map中不含有以key为键的“键-值对”则返回null

Object put(Object key, Object value)：向Map中存储以key为键、value为值的“键-值对”

Object remove(Object key):从Map中移除以key为键的“键-值对”

void putAll(Map t)：将另一个Map中的所有“键-值对”导入到此Map中

void clear()：清除所有“键-值对”

Set keySet()：得到所有的键

Collection values()：得到所有的值

Set entrySet()：得到所有的“键-值对”，Set中的类型是Map.Entry

2.3.1应用举例

【实例2-2】工号查询

Tom的工号是1155669，Jim的工号是1155689，Jane的工号是1255669，Kevin的工号是1165669，Bit的工号是1155660，Gavin的工号是1155639。请编写一个程序，输入工号后显示此工号对应的人名。

代码 2.5 工号查询

public class Map01

{

public static void main(String[] args)

{

NameSearcher ns = new NameSearcher();

System.out.println(ns.searchByNum("1155669"));

}

class NameSearcher

{

private Map map;

public NameSearcher()

{

super();

map = new HashMap();

map.put("1155669", "Tom");

map.put("1155689", "Jim");

map.put("1255669", "Jane");

map.put("1165669", "Kevin");

map.put("1155660", "Bit");

map.put("1155639", "Gavin");

}

public String searchByNum(String num)

{

return (String) map.get(num);

}

运行结果：

Tom

【实例2-3】枚举工号

Tom的工号是1155669，Jim的工号是1155689，Jane的工号是1255669，Kevin的工号是1165669，Bit的工号是1155660，Gavin的工号是1155639。请编写一个程序，显示所有工号。

代码 2.6 枚举工号

Map map = new HashMap();

map.put("1155669", "Tom");

map.put("1155689", "Jim");

map.put("1255669", "Jane");

map.put("1165669", "Kevin");

map.put("1155660", "Bit");

map.put("1155639", "Gavin");

Set keySet = map.keySet();

Iterator iterator = keySet.iterator();

while(iterator.hasNext())

{

String key = (String) iterator.next();

System.out.println(key);

}

Map的keySet方法返回的是所有的键，如果要显示所有人名，只要使用values方法即可。注意values方法的返回值是Collection 接口，与keySet方法的Set类型不同，原因很简单，因为值不像键一样，值是存在重复的情况的。

运行结果：

1155689

1155660

1155639

1165669

1155669

1255669

【实例2-3】枚举工号名字

Tom的工号是1155669，Jim的工号是1155689，Jane的工号是1255669，Kevin的工号是1165669，Bit的工号是1155660，Gavin的工号是1155639。请编写一个程序，显示所有工号-名字“键-值对”。

代码 2.7 枚举工号名字

Map map = new HashMap();

map.put("1155669", "Tom");

map.put("1155689", "Jim");

map.put("1255669", "Jane");

map.put("1165669", "Kevin");

map.put("1155660", "Bit");

map.put("1155639", "Gavin");

Set entrySet = map.entrySet();

Iterator iterator = entrySet.iterator();

while (iterator.hasNext())

{

Map.Entry keyValue = (Map.Entry) iterator.next();

Object key = keyValue.getKey();

Object value = keyValue.getValue();

System.out.println("工号:" + key + ";姓名:" + value);

}

运行结果：

工号:1155689;姓名:Jim

工号:1155660;姓名:Bit

工号:1155639;姓名:Gavin

工号:1165669;姓名:Kevin

工号:1155669;姓名:Tom

工号:1255669;姓名:Jane

【实例2-4】嵌套哈希

某公司分为多个部门，各部门的名称不同，而且公司不设立统一的工号，而是每个部门内部自己指定工号，各个部门之间的工号有可能相同。请编写一个程序，用户输入部门名称和工号，检索出对应人的人名。

代码 2.8是嵌套HashMap的实现方式。

代码 2.8 嵌套哈希

public class Map04

{

public static void main(String[] args)

{

PersonSearch04 ps = new PersonSearch04();

ps.add("开发一部", "001", "Tom");

ps.add("开发一部", "002", "Jane");

ps.add("开发一部", "003", "Popo");

ps.add("开发二部", "002", "Ruby");

ps.add("开发二部", "003", "Jay");

ps.add("开发二部", "005", "Cheris");

System.out.println(ps.get("开发二部", "002"));

}

class PersonSearch04

{

private Map departMap;

public PersonSearch04()

{

super();

departMap = new HashMap();

}

public void add(String departName, String number, String personName)

{

//首先取得部门人员的哈希表

Map personMap = (Map) departMap.get(departName);

//由于当key不存在的时候get方法会返回null，因此我们只要判断get方法

//是否为空就可以知道“键-值对”是否存在，不用调用containsKey方法

//去判断，这样少了一步计算hashCode的过程，能提高一定的效率

if (personMap == null)

{

//如果不存在部门人员哈希表,则新建一个部门人员哈希表,

//并以部门名称为key,部门人员哈希表为value加入部门哈希表

personMap = new HashMap();

departMap.put(departName, personMap);

}

//将人按照number为key,人名为value加入部门人员哈希表

personMap.put(number, personName);

}

public String get(String departName, String number)

{

//首先取得部门人员的哈希表

Map personMap = (Map) departMap.get(departName);

if (personMap == null)

{

return null;

}

//从部门人员哈希表中按照工号取出编码

return (String) personMap.get(number);

}

运行结果：

Ruby

由于部门名称、工号、姓名没有一个能做为主键，所以可以以部门内的人员做为一个Map，并将这个Map做为Value放入另一个Map中，也就是“Map中的Map”，这就解决了数据检索的问题。这个实现算法有点烦琐，并且有点难以理解，并且如果存在嵌套三层甚至更多层的情况就更难理解，这里采用另一种“复合主键”来实现另一种算法。

代码 2.9 是复合主键的实现方式。

代码 2.9 复合主键的实现方式

public class Map05

{

public static void main(String[] args)

{

PersonSearch05 ps = new PersonSearch05();

ps.add("开发一部", "001", "Tom");

ps.add("开发一部", "002", "Jane");

ps.add("开发一部", "003", "Popo");

ps.add("开发二部", "002", "Ruby");

ps.add("开发二部", "003", "Jay");

ps.add("开发二部", "005", "Cheris");

System.out.println(ps.get("开发二部", "002"));

}

class PersonSearch05

{

private Map map;

public PersonSearch05()

{

super();

map = new HashMap();

}

public void add(String departName, String number, String personName)

{

map.put(departName + number, personName);

}

public String get(String departName, String number)

{

return (String) map.get(departName + number);

}

部门名称不相同，所以部门名称加工号就可以做为键，这样就可以简化操作，算法实现起来也清晰多了。这种“复合主键”在实际应用中非常广泛，需要注意的是一定要保证这个“复合主键”不会重复，否则就会导致数据混乱。案例系统中的SQLTranslator中就是使用数据库类型加SQL语句做为“复合主键”的。

2.3.2 Map与HashCode

开发过程中一般都是使用String、Integer等类型做主键的，这些类型都有已经有实现好的哈希函数算法，我们无需为其实现哈希函数算法，但是也会碰到以自定义类型做主键的情况。

【实例2-5】以自定义类型做主键

某公司工号的编号方式为“部门编号+出生年月日”，如果重复则在后边再加顺序号。比如编号为“dev002”的部门的出生年月日为“1979年10月8日”的员工的工号为“dev00219791008”，如果已经存在此工号，则工号为“dev002197910081”。系统中有一个工号信息类NumberInfo：

代码 2.8 嵌套哈希

class NumberInfo

{

private String departNum;

private Date birthDay;

private int seqNumber;

public NumberInfo(String departNum, Date birthDay, int seqNumber)

{

super();

this.departNum = departNum;

this.birthDay = birthDay;

this.seqNumber = seqNumber;

}

public NumberInfo(String departNum, Date birthDay)

{

super();

this.departNum = departNum;

this.birthDay = birthDay;

this.seqNumber = -1;

}

public Date getBirthDay()

{

return birthDay;

}

public String getDepartNum()

{

return departNum;

}

public int getSeqNumber()

{

return seqNumber;

}

接着实现一个检索程序以NumberInfo类型做为主键：

public class Map06

{

public static void main(String[] args)

{

NumberInfo num1 = new NumberInfo("dev001",new Date(1979,1,1));

NumberInfo num2 = new NumberInfo("dev001",new Date(1979,1,1),1);

NumberInfo num3 = new NumberInfo("dev002",new Date(1980,6,1));

Map map = new HashMap();

map.put(num1,"Tom");

map.put(num2,"Peter");

map.put(num3,"Bill");

NumberInfo numToFind = new NumberInfo("dev001",new Date(1979,1,1));

System.out.println(map.get(numToFind));

}

运行结果：

null

有点出乎我们的意料，因为numToFind 和我们想要查找的num1 的3个域值都相等，为什么根据numToFind 为键却查不到以num1 为键的值呢？

由于NumberInfo直接从Object继承，而且没有重写Object类的方法，所有的行为都是和Object一致的，hashCode方法也继承自Object，而Object中的hashCode方法返回的hashCode对应于当前的地址，也就是说对于不同的对象，即使它们的内容完全相同，用hashCode()返回的值也会不同，这上违背了我们的意图。因为在使用Map时，希望利用相同内容的对象索引得到相同的目标对象，这就需要hashCode()在此时能够返回相同的值。我们期望numToFind与num1是相等的。所以要重写hashCode方法和equals方法，保证对象内容相同的NumberInfo类实例有相同的hashCode。重写如下：

public boolean equals(Object obj)

{

if (!(obj instanceof NumberInfo))

{

return false;

}

NumberInfo info = (NumberInfo) obj;

return info.getDepartNum().equals(getDepartNum())

&& info.getBirthDay().equals(getBirthDay())

&& info.getSeqNumber() == getSeqNumber();

}

public int hashCode()

{

String s = getDepartNum() + getBirthDay() + getSeqNumber();

return s.hashCode();

}

运行结果：

Tom

根据前边所讲的哈希表的原理，不难得出如下结论：

做为键的对象其hashCode和equals方法必须满足下面的条件：如果两个对象相等，那么它们的hashCode必须相等。

如果要使用自定义类做为键的话，一定要覆盖hashCode和equals方法，不能只覆盖一个而不覆盖另一个。计算hashCode最好的方式就是找出此类的“组合主键”(比如上例中的getDepartNum() + getBirthDay() + getSeqNumber())，然后直接返回这个“组合主键”，除非自己有十足的把握，否则不要自己实现哈希算法，因为那样很容易造成频繁的冲突。

由于使用自定义类做为键有很多问题需要处理，而且处理不当很很容易造成性能问题甚至数据混乱，所以在实际开发中尽量避免用自定义类做键。