干货 || 最小生成树总结

点这里进入我的博客,获得更好的体验!

搜索框中搜索这篇博客即可,已做迁移,支持一下咯~

一、定义

给定一张带权无向图 G = ( V , E ) , n = ∣ V ∣ , m = ∣ E ∣ G=(V,E),n = |V|, m = |E| G=VEn=Vm=E。由 V V V 中全部 n n n 个顶点和 E E E n − 1 n-1 n1 条边构成的无向连通子图被称为 G G G 的一棵生成树。边权和最小的生成树被称为无向图 G G G 的最小生成树(Minimum Spanning Tree,MST)。

二、定理&推论

1.任意一棵最小生成树一定包含无向图中权值最小的边。
证:反证法。假设无向图存在一棵不包含权值最小边的最小生成树。若把这条权值最小边插入到树中,会形成一个环,且环上的其他每条边的权值都比这条插入的边大,因此,用这条插入的边替换环中任意一条边都能得到更小的生成树,与假设矛盾。
2.推论:给定一张带权无向图 G = ( V , E ) , n = ∣ V ∣ , m = ∣ E ∣ G=(V,E),n = |V|, m = |E| G=VEn=Vm=E。从 E E E 中选出 k < n − 1 k< n-1 k<n1 条边构成 G G G 的一个生成森林。若再从剩下的 m − k m-k mk 条边中选 n − 1 − k n-1-k n1k 条添加到生成森林中,使其成为 G G G 的生成树,并且保证后选的边权值之和最小,则该生成树一定包含这 m − k m-k mk 条边中连接生成森林的两个不连通节点的权值最小的边。

暂时不太知道怎么应用这两个结论证明下文的两个算法,这里仅做介绍

三、Kruskal算法

  • Kruskal总是维护无向图的最小生成森林。最初,可以认为生成森林由零条边组成,每个节点各自构成一棵仅包含一个点的树。
  • 任意时刻,Kruskal从剩余的边中选出一条权值最小的边,并且这条边的两个端点属于生成森林中两棵不同的树(不连通),把该边加入生成森林。图中节点属于那棵树可以用并查集维护。
  • 具体流程:
  1. 建立并查集,每个点各自为一个集合。
  2. 每条边按照权值从小到大排序,遍历每条边(x,y,z)。
  3. 若x,y属于同个集合,则忽略这条边,扫描下一个边。
  4. 否则,合并x,y所在的集合,并把z加到答案中。
  5. 扫描完所有边后,第4步中所加的边构成最小生成树。
  6. 时间复杂度为 O ( m l o g m ) O(mlogm) O(mlogm)
  • 算法证明:
    要证明Kruskal算法生成的是最小生成树,我们分两步来证明:
    (1)Kruskal算法一定能得到一个生成树;
    (2)该生成树具有最小代价。
    证明如下:
    (1)假设该算法得到的不是生成树(有环或不连通),由于算法要求每次加入边的两端点属于两个不同的集合及不会形成环,所以第一种情形不存在。又由于存在最小生成树的前提是图为连通图,故第二种情况也不存在。
    (2)假设图有n个顶点,则生成树一定具有n-1条边。假设该图的最小生成树为M。先做出如下假设:
    1)Kruskal得到的树为K。
    2) K K K M M M 中不同的边的条数为m,其它n-1-m条边相同,这n-1-m条边构成边集 E E E
    3)在 K K K中而不在 M M M中的边按代价从小到大依次为 a 1 , a 2 , . . . , a m a_1,a_2,...,a_m a1a2...am
    4)在U中而不在T中的边按代价从小到大依次为 x 1 , x 2 , . . . , x m x_1,x_2,...,x_m x1x2...xm
    现在我们通过把 M M M 转换为 K K K (把 K K K 的边依次移入 M M M 中),来证明 M M M K K K 相同。首先,我们将 a 1 a_1 a1移入 M M M 中,由于 M M M 本身是一棵树,此时任意加一条边都构成回路,所以 a 1 a_1 a1的加入必然产生一条回路,且这条回路必然包括 x 1 , x 2 , . . . , x m x_1,x_2,...,x_m x1x2...xm中的边。(否则 a 1 a_1 a1 E E E 中的边构成回路,而 E E E 也在 K K K 中,这与 K K K 中无回路矛盾)
    在这个回路中删除属于 x 1 , x 2 , . . . , x m x_1,x_2,...,x_m x1x2...xm且代价最大边 x i x_i xi构成一个新的生成树 V V V

    • 假设 a 1 a_1 a1 代价小于 x i x_i xi ,则 V V V 的代价小于 M M M ,这与 M M M 是最小代价树矛盾,所以 a 1 a_1 a1 不可能小于 x i x_i xi
    • 假设 a 1 a_1 a1 大于 x i x_i xi,按照Kruskal算法,首先考虑代价小的边,则执行Kruskal算法时, x i x_i xi应该是在 a 1 , a 2 , . . . , a m a_1,a_2,...,a_m a1,a2,...,am之前考虑,所以考虑 x i x_i xi 之前, K K K 中的边只能是 E E E 中的边,而 x i x_i xi 既然没加入树 K K K ,就说明 x i x_i xi 必然与 E E E 中的某些边构成回路,但 x i x_i xi E E E 又同时在 M M M 中,这与M是生成树矛盾,所以 a 1 a_1 a1也不可能大于 x i x_i xi

    因此,新得到的树 M M M K K K 具有相同代价。
    依次类推,把 a 1 , a 2 , . . . , a m a_1,a_2,...,a_m a1a2...am的边逐渐加到 M M M 中,最终得到的树 V V V M M M 代价相同。

证必。

#include <bits/stdc++.h>

using namespace std;
const int maxn = 2e5+10;

struct node{
    int u, v, w;
    const bool operator < (const node &t)const {return w < t.w;}
}edge[maxn];

int fa[maxn];
int Find(int x) {
    if(fa[x] == x) return x;
    else return fa[x] = Find(fa[x]);
}

int main(){
    int n, m;
     cin >> n >> m;
     for(int i  = 0;  i< m; i++){
            cin >> edge[i].u >> edge[i].v  >> edge[i].w;
     }
     sort(edge,edge+m);
     for(int i = 1; i <=n; i++){
         fa[i] = i;
     }
     int cnt = 0, ans = 0;//cnt存加入森林的边数,判断是否存在生成树,若边树等于n-1,则存在生成树。
     for(int i = 0;  i< m; i++){
         int x = Find(edge[i].u), y = Find(edge[i].v);
         if(x == y) continue;
         fa[x] = y;
         ans += edge[i].w;
         cnt++;
     }
     if(cnt != n-1) puts("impossible");
     else cout << ans << endl;
}

四、Prim

  • Prim算法做法有所不同,prim总是维护最小生成树的一部分,最初定义1号节点为最小生成树的初始点。
  • 任意时刻,设已确定属于最小生成树的点集为T,剩余其他节点的集合为S。每次在S中找与集合T距离最小的点x,距离的定义为:节点x与集合T中的节点之间权值最小的边的权值。然后将此点从S中删除,加入到T中,并把此点和集合T的距离加到答案中。
  • 若点x从集合S移动到T,则扫描x的所有边,更新一下另一个端点到集合T的距离。
  • 具体流程:
  1. 维护一个数组d:若x∈S,则d[x]表示节点x到集合T的距离。若x∈T,则d[x]就等于x被加入到T时选出的最小边的权值。
  2. 用一个sta数组标记节点是否属于T。每次从未被标记的节点中选取d值最小的,把它标记(加入T中),同时扫描所有出边,更新另一个端点的d值。最后,最小生成树的权值总和为 ∑ x = 2 n d [ x ] \sum_{x=2}^{n}d[x] x=2nd[x]
  • 时间复杂度 O ( n 2 ) O(n^2) O(n2),用优先队列可以优化到 O ( m l o g n ) O(mlogn) O(mlogn),prim主要用于稠密图,尤其是完全图的最小生成树求解。

prim无优化版本

#include <bits/stdc++.h>

using namespace std;
const int maxn = 1e3 + 10;
int mp[maxn][maxn], d[maxn], n, m;
bool sta[maxn];

int prim() {
    memset(d, 0x3f, sizeof(d));//d数组初始化为无穷大
    int res = 0;//记录最小生成树的总权值和
    for (int i = 0; i < n; i++) {//这里i从0开始,第一次循环找到的最小点为1号点(相当于S集合的初始化)
        int x = 0;
        for (int j = 1; j <= n; j++)//寻找S集合中距离T最近的点
            if (!sta[j] && (x == 0 || d[x] > d[j])) x = j;
        if (i && d[x] == 0x3f3f3f3f) return 0x3f3f3f3f;//如果找到的最小点与S集合无边(这里显示为无穷大),则没有最小生成树,直接返回无穷大。
        sta[x] = 1;//点入S集合
        for (int j = 1; j <= n; j++) {//遍历入S集合的点的所有边,更新另一端点到S的距离
            if (!sta[j]) d[j] = min(d[j], mp[j][x]);
        }
        if (i) res += d[x];//第一次循环找的是1号点,不用加边权
    }
    return res;
}

int main() {
    cin >> n >> m;
    memset(mp, 0x3f, sizeof mp);
    for (int i = 1; i <= n; i++) mp[i][i] = 0;//记得初始化
    for (int i = 0; i < m; i++) {
        int u, v, w;
        cin >> u >> v >> w;
        mp[u][v] = mp[v][u] = min(mp[u][v], w);//如果有重边则这样处理
    }
    int ans = prim();
    if (ans == 0x3f3f3f3f)//返回无穷大说明无最小生成树,输出impossible
        puts("impossible");
    else
        cout << ans << endl;
}

优先队列优化

#include <bits/stdc++.h>

using namespace std;
const int maxn = 1e3 + 10;
int mp[maxn][maxn], d[maxn], n, m;
bool sta[maxn];
int cnt;
int prim() {
    memset(d, 0x3f, sizeof(d));
    int res = 0;
    d[1] = 0;
    priority_queue<pair<int, int>> q;
    q.push({0, 1});
    while (cnt < n && q.size()) {//循环条件与朴素做法有些不同,第一个条件代表最小生成树的条件,第二个条件判断队列是否为空
        auto now = q.top();
        q.pop();
        int x = now.second;
        if (sta[x]) continue;//如果属于S集合则不操作
        res += -now.first;
        sta[x] = 1;
        cnt++;
        for (int j = 1; j <= n; j++) {
            if (!sta[j] && d[j] > mp[j][x]) {
                d[j] = mp[j][x];
                q.push({-d[j], j});//把更新过的值压入队列待匹配,这里取负号是因为我们要取最小值,而优先队列默认输出最大值
            }
        }
    }
    return res;
}

int main() {
    cin >> n >> m;
    memset(mp, 0x3f, sizeof mp);
    for (int i = 1; i <= n; i++) mp[i][i] = 0;
    for (int i = 0; i < m; i++) {
        int u, v, w;
        cin >> u >> v >> w;
        mp[u][v] = mp[v][u] = min(mp[u][v], w);
    }
    int ans = prim();
    if (cnt != n)//集合中没有n个点说明不存在最小生成树
        puts("impossible");
    else
        cout << ans << endl;
}
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Spark Streaming 和 Flink 都是流处理框架,但在一些方面有所不同。 1. 数据处理模型 Spark Streaming 基于批处理模型,将流数据分成一批批进行处理。而 Flink 则是基于流处理模型,可以实时处理数据流。 2. 窗口处理 Spark Streaming 的窗口处理是基于时间的,即将一段时间内的数据作为一个窗口进行处理。而 Flink 的窗口处理可以基于时间和数据量,可以更加灵活地进行窗口处理。 3. 状态管理 Spark Streaming 的状态管理是基于 RDD 的,需要将状态存储在内存中。而 Flink 的状态管理是基于内存和磁盘的,可以更加灵活地管理状态。 4. 容错性 Flink 的容错性比 Spark Streaming 更加强大,可以在节点故障时快速恢复,而 Spark Streaming 则需要重新计算整个批次的数据。 总的来说,Flink 在流处理方面更加强大和灵活,而 Spark Streaming 则更适合批处理和数据仓库等场景。 ### 回答2: Spark Streaming 和 Flink 都是流处理框架,它们都支持低延迟的流处理和高吞吐量的批处理。但是,它们在处理数据流的方式和性能上有许多不同之处。下面是它们的详细比较: 1. 处理模型 Spark Streaming 采用离散化流处理模型(DPM),将长周期的数据流划分为离散化的小批量,每个批次的数据被存储在 RDD 中进行处理,因此 Spark Streaming 具有较好的容错性和可靠性。而 Flink 采用连续流处理模型(CPM),能够在其流处理过程中进行事件时间处理和状态管理,因此 Flink 更适合处理需要精确时间戳和状态管理的应用场景。 2. 数据延迟 Spark Streaming 在处理数据流时会有一定的延迟,主要是由于对数据进行缓存和离散化处理的原因。而 Flink 的数据延迟比 Spark Streaming 更低,因为 Flink 的数据处理和计算过程是实时进行的,不需要缓存和离散化处理。 3. 机器资源和负载均衡 Spark Streaming 采用了 Spark 的机器资源调度和负载均衡机制,它们之间具有相同的容错和资源管理特性。而 Flink 使用 Yarn 和 Mesos 等分布式计算框架进行机器资源调度和负载均衡,因此 Flink 在大规模集群上的性能表现更好。 4. 数据窗口处理 Spark Streaming 提供了滑动、翻转和窗口操作等灵活的数据窗口处理功能,可以使用户更好地控制数据处理的逻辑。而 Flink 也提供了滚动窗口和滑动窗口处理功能,但相对于 Spark Streaming 更加灵活,可以在事件时间和处理时间上进行窗口处理,并且支持增量聚合和全量聚合两种方式。 5. 集成生态系统 Spark Streaming 作为 Apache Spark 的一部分,可以充分利用 Spark 的分布式计算和批处理生态系统,并且支持许多不同类型的数据源,包括Kafka、Flume和HDFS等。而 Flink 提供了完整的流处理生态系统,包括流SQL查询、流机器学习和流图形处理等功能,能够灵活地适应不同的业务场景。 总之,Spark Streaming 和 Flink 都是出色的流处理框架,在不同的场景下都能够发挥出很好的性能。选择哪种框架取决于实际需求和业务场景。 ### 回答3: Spark Streaming和Flink都是流处理引擎,但它们的设计和实现方式有所不同。在下面的对比中,我们将比较这两种流处理引擎的主要特点和差异。 1. 处理模型 Spark Streaming采用离散流处理模型,即将数据按时间间隔分割成一批一批数据进行处理。这种方式可以使得Spark Streaming具有高吞吐量和低延迟,但也会导致数据处理的粒度比较粗,难以应对大量实时事件的高吞吐量。 相比之下,Flink采用连续流处理模型,即数据的处理是连续的、实时的。与Spark Streaming不同,Flink的流处理引擎能够应对各种不同的实时场景。Flink的实时流处理能力更强,因此在某些特定的场景下,它的性能可能比Spark Streaming更好。 2. 窗口计算 Spark Streaming内置了许多的窗口计算支持,如滑动窗口、滚动窗口,但支持的窗口计算的灵活性较低,只适合于一些简单的窗口计算。而Flink的窗口计算支持非常灵活,可以支持任意窗口大小或滑动跨度。 3. 数据库支持 在处理大数据时,存储和读取数据是非常重要的。Spark Streaming通常使用HDFS作为其数据存储底层的系统。而Flink支持许多不同的数据存储形式,包括HDFS,以及许多其他开源和商业的数据存储,如Kafka、Cassandra和Elasticsearch等。 4. 处理性能 Spark Streaming的性能比Flink慢一些,尤其是在特定的情况下,例如在处理高吞吐量的数据时,在某些情况下可能受制于分批处理的架构。Flink通过其流处理模型和不同的调度器和优化器来支持更高效的实时数据处理。 5. 生态系统 Spark有着庞大的生态系统,具有成熟的ML库、图处理库、SQL框架等等。而Flink的生态系统相对较小,但它正在不断地发展壮大。 6. 规模性 Spark Streaming适用于规模小且不太复杂的项目。而Flink可扩展性更好,适用于更大、更复杂的项目。Flink也可以处理无限制的数据流。 综上所述,Spark Streaming和Flink都是流处理引擎,它们有各自的优缺点。在选择使用哪一个流处理引擎时,需要根据实际业务场景和需求进行选择。如果你的业务场景较为复杂,需要处理海量数据并且需要比较灵活的窗口计算支持,那么Flink可能是更好的选择;如果你只需要简单的流处理和一些通用的窗口计算,Spark Streaming是更为简单的选择。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值