第七章 集合和映射
7-1 集合基础和基于二分搜索树的集合实现
7-2 基于链表的集合实现
7-3 集合类的复杂度分析
7-4 Leetcode中的集合问题和更多集合相关问题
7-5 映射基础
7-6 基于链表的映射实现
7-7 基于二分搜索树的映射实现
7-8 映射的复杂福分析和更多映射相关问题
7-9 Leetcode上更多集合和映射的问题
7-1 集合基础和基于二分搜索树的集合实现
集合:承载元素的容器,每个元素只能存在一次,它可以非常快速地帮助我们实现去重这个操作
回忆我们上一小节实现的二分搜索树,不能盛放重复元素,因此二分搜索树是非常好的实现“集合”的底层数据结构
集合的典型应用:客户统计,词汇量统计
集合的实现Set< E >设计以下几个基本操作:
- void add (E):向集合中添加一个元素(不能添加重复元素)
- void remove (E):从集合中删除一个元素
- boolean contains (E):判断集合中是否包含某个元素E
- int getSize ( ):获得当前集合中一共有多少个元素
- boolean isEmpty ( ):判断集合是否为空
集合的接口定义:
public interface Set<E> {
void add(E e);
boolean contains(E e);
void remove(E e);
int getSize();
boolean isEmpty();
}
接下来新建一个类BSTSet,利用二分搜索树这种底层的结构实现了集合:
public class BSTSet<E extends Comparable<E>> implements Set<E> {
private BST<E> bst;
public BSTSet(){
bst = new BST<>();
}
@Override
public int getSize(){
return bst.size();
}
@Override
public boolean isEmpty(){
return bst.isEmpty();
}
@Override
public void add(E e){
bst.add(e);
}
@Override
public boolean contains(E e){
return bst.contains(e);
}
@Override
public void remove(E e){
bst.remove(e);
}
}
7-2 基于链表的集合实现
下面我们利用链表作底层来实现集合 LinkedListSet< E >,因为二分搜索树BST和LinkedList都属于动态数据结构
BST:class Node{E e; Node left; Node right;}
LinkedList: class Node{E e; Node next;}
对于基于链表(线性数据结构)的集合类,它所存储的对象类型并不要求具有可比性(这是线性数据结构的一个特点),因此不需要继承comparable etc. 等类,这一点不同于二分搜索树。但二分搜索树更有优势(时间复杂度更低)
import java.util.ArrayList;
public class LinkedListSet<E> implements Set<E> {
private LinkedList<E> list;
public LinkedListSet(){
list = new LinkedList<>();
}
@Override
public int getSize(){
return list.getSize();
}
@Override
public boolean isEmpty(){
return list.isEmpty();
}
@Override
public void add(E e){
if(!list.contains(e)) // 查一下当前list中是否包含元素e,如果不包含再使用addFirt
list.addFirst(e);
}
@Override
public boolean contains(E e){
return list.contains(e);
}
@Override
public void remove(E e){
list.removeElement(e);
}
}
7-3 集合类的复杂度分析
测试基于链表的集合类和基于二分搜索树的集合类:
import java.util.ArrayList;
public class Main {
private static double testSet(Set<String> set, String filename){
long startTime = System.nanoTime();
System.out.println(filename);
ArrayList<String> words = new ArrayList<>();
if(FileOperation.readFile(filename, words)) {
System.out.println("Total words: " + words.size());
for (String word : words)
set.add(word);
System.out.println("Total different words: " + set.getSize());
}
long endTime = System.nanoTime();
return (endTime - startTime) / 1000000000.0;
}
public static void main(String[] args) {
String filename = "pride-and-prejudice.txt";
BSTSet<String> bstSet = new BSTSet<>();
double time1 = testSet(bstSet, filename);
System.out.println("BST Set: " + time1 + " s");
System.out.println();
LinkedListSet<String> linkedListSet = new LinkedListSet<>();
double time2 = testSet(linkedListSet, filename);
System.out.println("Linked List Set: " + time2 + " s");
}
运行结果如下:BSTSet运行快,性能是优于LinkedListSet的
pride-and-prejudice.txt
Total words: 125901
Total different words: 6530
BST Set: 0.659069785 spride-and-prejudice.txt
Total words: 125901
Total different words: 6530
Linked List Set: 5.245607828 s
- BSTSet和LinkedListSet的时间复杂度分析
对于一个满二叉树而言,如果它有h层,一共有(2h - 1)个节点:20 + 21 + 22 + 24 + … + 2h-1,如果节点个数为n,则有n = 2h -1, h = log2(n+1) = O(log2n) = Ologn. 对于这里的时间复杂度O对数,不用关心底数的大小。
这里算平均的原因是:在这里计算n与h的关系时,假设是满二叉树;并且当二叉树退化为链表时,复杂度会大幅增加。
下图就展示了同样的数据,可以对应不同的二分搜索树(左右两个都是二分搜索树,右方的BST退化为链表)
7-4 Leetcode中的集合问题和更多集合相关问题
import java.util.TreeSet;
public class Solution {
public int uniqueMorseRepresentations(String[] words) {
String[] codes = {".-","-...","-.-.","-..",".","..-.","--.","....","..",".---","-.-",".-..","--","-.","---",".--.","--.-",".-.","...","-","..-","...-",".--","-..-","-.--","--.."};
TreeSet<String> set = new TreeSet<>();
for(String word: words){
StringBuilder res = new StringBuilder();
for(int i = 0 ; i < word.length() ; i ++)
res.append(codes[word.charAt(i) - 'a']);
set.add(res.toString());
}
return set.size();
}
}
- 有序集合:集合中的元素具有顺序性(二分搜索树,红黑树实现的集合)
有序集合一般基于搜索树的实现。对于搜索树的实现来说,如果它保持了有序性,那么相应的它的能力就会越大(比如可以轻易查找最大最小元素,或某个元素的前一个元素,后一个元素等),而轻易完成这些操作是有代价的,这个代价就在时间复杂性上,是略微差于哈希表的。 - 无序集合:集合中的元素没有顺序性(链表,哈希表实现的集合)
无序集合使用链表效率地下,但可以选择基于哈希表的实现。对于哈希表来说,相应的增,删,查操作比搜索树还要快。 - 同样的,集合中的元素也可以重复(多重集合),是否需要多重集合由业务场景决定。通常所说的集合还是指不能有重复元素的集合
7-5 映射Map基础
- 存储(键,值)数据对的数据结构(key, value)
- 根据键(key),寻找值(value)
- 非常容易使用链表或者二分搜索树实现
链表:class Node { K key; V value; Node left; Node right;}
二分搜索树:class Node {K key; V value; Node next;}
相应的可以定义映射Map的接口如下:
Map< K, V >
- void add (K, V)
- V remove (K)
- boolean contains (K)
- V get (K)
- void set (K, V)
- int getSize ( )
- boolean isEmpty ( )
简单的代码实现:
public interface Map<K, V> {
void add(K key, V value);
V remove(K key);
boolean contains(K key);
V get(K key);
void set(K key, V newValue);
int getSize();
boolean isEmpty();
}
7-6 基于链表的映射实现
实现一个以链表为底层结构的映射类LinkedListMap
import java.util.ArrayList;
public class LinkedListMap<K, V> implements Map<K, V> {
private class Node{
public K key;
public V value;
public Node next;
public Node(K key, V value, Node next){
this.key = key;
this.value = value;
this.next = next;
}
public Node(K key, V value){
this(key, value, null);
}
public Node(){
this(null, null, null);
}
@Override
public String toString(){
return key.toString() + " : " + value.toString();
}
}
private Node dummyHead;
private int size;
public LinkedListMap(){
dummyHead = new Node();
size = 0;
}
@Override
public int getSize(){
return size;
}
@Override
public boolean isEmpty(){
return size == 0;
}
private Node getNode(K key){
Node cur = dummyHead.next;
while(cur != null){
if(cur.key.equals(key))
return cur;
cur = cur.next;
}
return null;
}
@Override
public boolean contains(K key){
return getNode(key) != null;
}
@Override
public V get(K key){
Node node = getNode(key);
return node == null ? null : node.value;
}
@Override
public void add(K key, V value){
Node node = getNode(key);
if(node == null){
dummyHead.next = new Node(key, value, dummyHead.next);
size ++;
}
else
node.value = value;
}
@Override
public void set(K key, V newValue){
Node node = getNode(key);
if(node == null)
throw new IllegalArgumentException(key + " doesn't exist!");
node.value = newValue;
}
@Override
public V remove(K key){
Node prev = dummyHead;
while(prev.next != null){
if(prev.next.key.equals(key))
break;
prev = prev.next;
}
if(prev.next != null){
Node delNode = prev.next;
prev.next = delNode.next;
delNode.next = null;
size --;
return delNode.value;
}
return null;
}
}
7-7 基于二分搜索树的映射实现
import java.util.ArrayList;
public class BSTMap<K extends Comparable<K>, V> implements Map<K, V> {
private class Node{
public K key;
public V value;
public Node left, right;
public Node(K key, V value){
this.key = key;
this.value = value;
left = null;
right = null;
}
}
private Node root;
private int size;
public BSTMap(){
root = null;
size = 0;
}
@Override
public int getSize(){
return size;
}
@Override
public boolean isEmpty(){
return size == 0;
}
// 向二分搜索树中添加新的元素(key, value)
@Override
public void add(K key, V value){
root = add(root, key, value);
}
// 向以node为根的二分搜索树中插入元素(key, value),递归算法
// 返回插入新节点后二分搜索树的根
private Node add(Node node, K key, V value){
if(node == null){
size ++;
return new Node(key, value);
}
if(key.compareTo(node.key) < 0)
node.left = add(node.left, key, value);
else if(key.compareTo(node.key) > 0)
node.right = add(node.right, key, value);
else // key.compareTo(node.key) == 0
node.value = value;
return node;
}
// 返回以node为根节点的二分搜索树中,key所在的节点
private Node getNode(Node node, K key){
if(node == null)
return null;
if(key.equals(node.key))
return node;
else if(key.compareTo(node.key) < 0)
return getNode(node.left, key);
else // if(key.compareTo(node.key) > 0)
return getNode(node.right, key);
}
@Override
public boolean contains(K key){
return getNode(root, key) != null;
}
@Override
public V get(K key){
Node node = getNode(root, key);
return node == null ? null : node.value;
}
@Override
public void set(K key, V newValue){
Node node = getNode(root, key);
if(node == null)
throw new IllegalArgumentException(key + " doesn't exist!");
node.value = newValue;
}
// 返回以node为根的二分搜索树的最小值所在的节点
private Node minimum(Node node){
if(node.left == null)
return node;
return minimum(node.left);
}
// 删除掉以node为根的二分搜索树中的最小节点
// 返回删除节点后新的二分搜索树的根
private Node removeMin(Node node){
if(node.left == null){
Node rightNode = node.right;
node.right = null;
size --;
return rightNode;
}
node.left = removeMin(node.left);
return node;
}
// 从二分搜索树中删除键为key的节点
@Override
public V remove(K key){
Node node = getNode(root, key);
if(node != null){
root = remove(root, key);
return node.value;
}
return null;
}
private Node remove(Node node, K key){
if( node == null )
return null;
if( key.compareTo(node.key) < 0 ){
node.left = remove(node.left , key);
return node;
}
else if(key.compareTo(node.key) > 0 ){
node.right = remove(node.right, key);
return node;
}
else{ // key.compareTo(node.key) == 0
// 待删除节点左子树为空的情况
if(node.left == null){
Node rightNode = node.right;
node.right = null;
size --;
return rightNode;
}
// 待删除节点右子树为空的情况
if(node.right == null){
Node leftNode = node.left;
node.left = null;
size --;
return leftNode;
}
// 待删除节点左右子树均不为空的情况
// 找到比待删除节点大的最小节点, 即待删除节点右子树的最小节点
// 用这个节点顶替待删除节点的位置
Node successor = minimum(node.right);
successor.right = removeMin(node.right);
successor.left = node.left;
node.left = node.right = null;
return successor;
}
}
}
代码呢,是需要好好花费一些时间的。记得从头开始实现所有的,然后上传到github哈!
7-8 映射的复杂福分析和更多映射相关问题
- 集合和映射的底层实现逻辑类似,在实现一方的时候可以在此基础上实现另一方。
相比之下,在实现映射的基础上可以更好地实现集合,此时可以将映射的value值永久设为null,只考虑键(包装一下实现好的映射,可以更方便的实现集合)
设计思路上:在实现链表,二分搜索树,平衡二叉树,红黑树时,直接在节点内部设置支持key值和value值的两种泛型,更能适应复杂的情况。 - 映射的时间复杂度分析(和集合的时间复杂度一致)
基于LinkedList的Map和基于BST的Map比较
-
有序映射:有序映射中的键具有顺序性(基于搜索树的实现)
无序映射:无序映射中的键没有顺序性(基于哈希表的实现)
多重映射:多重映射中的键可以重复 -
集合和映射的关系:
对于映射Map来说,它本身也是一个集合,只不过是一个键key这样的集合,而且每一个key还携带了一个value而已。逻辑上,它的本质和集合其实并没有太大的区别。
7-9 Leetcode上更多集合和映射的问题
Leetcode-349 两个数组的交集
代码实现如下:
import java.util.ArrayList;
import java.util.TreeSet;
class Solution349 {
public int[] intersection(int[] nums1, int[] nums2) {
TreeSet<Integer> set = new TreeSet<>();
for(int num: nums1)
set.add(num);
ArrayList<Integer> list = new ArrayList<>();
for(int num: nums2){
if(set.contains(num)){
list.add(num);
set.remove(num);
}
}
int[] res = new int[list.size()];
for(int i = 0 ; i < list.size() ; i ++)
res[i] = list.get(i);
return res;
}
}
代码实现如下:
import java.util.ArrayList;
import java.util.TreeMap;
public class Solution350 {
public int[] intersect(int[] nums1, int[] nums2) {
TreeMap<Integer, Integer> map = new TreeMap<>();
for(int num: nums1){
if(!map.containsKey(num))
map.put(num, 1);
else
map.put(num, map.get(num) + 1);
}
ArrayList<Integer> res = new ArrayList<>();
for(int num: nums2){
if(map.containsKey(num)){
res.add(num);
map.put(num, map.get(num) - 1);
if(map.get(num) == 0)
map.remove(num);
}
}
int[] ret = new int[res.size()];
for(int i = 0 ; i < res.size() ; i ++)
ret[i] = res.get(i);
return ret;
}
}
本章集合和映射的底层实现是基于链表和基于二分搜索树的
- Java标准库中的集合和映射中:
TreeSet和TreeMap是基于平衡二叉树的底层实现,更准确地说是基于红黑树
HashSet和HashMap是基于哈希表的底层实现
注:哈希表相关的问题也可以尝试用TreeSet / TreeMap实现
算法面试中常用集合和映射来解决相关的算法问题(重灾区)