编程总结
在刷题之前需要反复练习的编程技巧,尤其是手写各类数据结构实现,它们好比就是全真教的上乘武功
本栏目为学习笔记参考:https://leetcode.cn/leetbook/read/disjoint-set/oviefi/
1.0 概述
并查集(Union Find)也叫「不相交集合(Disjoint Set)」,专门用于 动态处理 不相交集合的「查询」与「合并」问题。
很多数据结构都因为具有 动态 处理问题的能力而变得高效,例如「堆」「二叉查找树」等。所谓「动态」的意思是:要处理的数据不是一开始就确定好的,理解「并查集」动态处理数据的最好的例子是「最小生成树」算法(本专题第 3 节介绍)。
可以使用并查集的问题一般都可以使用基于遍历的搜索算法(深度优先搜索、广度优先搜索)完成,但是使用并查集会使得解决问题的过程更加清晰、直观。
并查集的问题属于竞赛级别需要掌握的数据结构,但其本身代码量少且好理解,但难在应用。目前看来「并查集」不是普通公司面试和笔试的考点,请大家合理分配时间进行学习。
基本概念
我们以一个直观的问题引入并查集 (不相交集) 的概念。
※ 并查集: Union-Find Set ,不相交集: Disjoint Set。
亲戚问题: 有一群人,他们属于不同家族,同一个家族里的人互为亲戚,不同家族的人不是亲戚。已知每个人都知道自己与其他人是否有亲戚关系,求问有几个家族。
亲戚问题代表着一大类能用并查集解决的所谓确定「连通分量」的问题,可以将上述问题图示化如下,不同颜色的集合代表不同家族,集合内的人 (元素) 互为亲戚。从图论的角度来说,同一个集合内的元素是相互「连通」的,那么一个集合就是一个「连通分量」。用集合的语言来说,问题涉及的元素可划归到互相 没有交集 的集合,因此也称这样的结构为 「不相交集」
于是我们可以这样概括性地描述并查集:
并查集 (不相交集) 是一种描述不相交集合的数据结构,即若一个问题涉及多个元素,它们可划归到不同集合,同属一个集合内的元素等价(即可用任意一个元素作为代表,比如上述的互为亲戚即互相等价),不同集合内的元素不等价。
这基本上就是对并查集的完整描述了,十分简单。问题涉及的元素初始时总是自己构成一个单元素集合,求解问题需要通过合并操作将等价元素归入一个集合中。为了能够合并等价元素,我们必须查询希望合并的对象元素属于哪个集合,以决定是否要执行合并。因此 主要操作就是「查询」与「合并」 (注意,此刻我们当然还不知道如何查询如何求并,但并不妨碍我们看出这两个操作的必要性) 。
「不相交」描述的是问题元素构成集合之后各个集合不相交的状态,「并查」描述的是处理问题时的操作。后文中两种称呼都会出现。
上面的亲戚问题只用于引入并查集的概念,而本文剩下的内容,会以 547: 省份数量 问题为研究对象,一步步 发明并查集 以解决该问题。