区间贪心2

ৡSailsꦿ࿐

已于 2024-08-02 14:04:24 修改

阅读量1k

点赞数 23

文章标签：算法数据结构

于 2024-08-01 15:01:51 首次发布

本文链接：https://blog.csdn.net/ZCSDNHJKS/article/details/140847594

版权

问题引入

上一节我们学习了贪心的基本概念、基本思路以及证明方法，下面我们一起来学习区间类贪心类问题，这里我们学习的重点依然是贪心的策略和证明。

算法原理区间贪心：

是指在区间上做贪心。区间贪心一般都是按左端点或者右端点排序，大胆假设，小心求证。当你觉得是贪心题的时候，千万不要轻易相信题目给的样例，尽量多找几组例子试试，样例验证成功后最好还要证明贪心算法是否成立。

例题引入凌乱的拓拓快noip了，拓拓同学很紧张！现在各大oj上有n个比赛，每个比赛的开始、结束的时间点是知道的。拓拓同学认为，参加越多的比赛，noip就能考的越好（假的）。所以，他想知道他最多能参加几个比赛。由于拓拓同学是个蒟蒻，如果要参加一个比赛必须善始善终，而且不能同时参加2个及以上的比赛。他想知道自己最多能参加几个比赛。输入数据不超过10610 6 。【问题分析】如果所有的比赛时间不冲突，那么就可以全部参加了，但并没有这么简单。如果两个比赛时间冲突，要分情况看待，冲突的比赛关系我们分成以下两种情况讨论（其他的比赛冲突都能转化成这两种情况）。

如下图所示：

（a）一个比赛被另一个包含：两个比赛冲突，选择比赛1，因为比赛1先结束，这样后续比赛被占用时间的可能就少一些。

（b）一个比赛和另一个比赛相交：还是选择比赛1，理由同上。最先选择参加哪一场比赛呢？根据分析，应该选择参加最先结束的那一场比赛。接下来，要选择能够参加的比赛中，最早结束的比赛（既然已经决定参加上一场比赛，那么所有和上一场冲突的比赛都不能参加了），直到没有比赛可以参加为止。这样可以保证不管在什么时间点之前，能够参加的比赛的数量都是最多的。因此贪心算法成立。这就是证明贪心算法的另一种方法：数学归纳法。每一步的选择都是到当前为止的最优解，一直到最后一步就成为了全局最优解。代码如下：

#include <bits/stdc++.h>
using namespace std;
int n, ans, finish;  //finish记录上一次结束的比赛时间
struct contest{
    int l, r;  //l比赛开始时间，r比赛结束时间
} c[1000010];
bool cmp(contest a, contest b){  //按照结束时间从小到大排序
    return a.r < b.r;
}
int main()
{
    cin >> n;
    for(int i=1;i<=n;i++){
        cin >>c[i].l >> c[i].r;
    }
    sort(c+1, c+n+1, cmp);
    for(int i=1;i<=n;i++){
        //保证上一次比赛结束的时间 <= 第i场比赛的开始时间
        if(finish <= c[i].l){ 
            ans++;
            finish = c[i].r; //更新比赛结束的时间
        }
    }
    cout << ans;
    return 0;
}

本题中将所有比赛的结束时间排序，然后依次进行贪心：

如果能够参加这场比赛，就报名；如果这场比赛和上一场参加的比赛冲突，就放弃。常见的区间贪心类问题一般可以分成四种不同的题型，下面我们一起来探讨下这四种经典的区间贪心模型。

经典模型一：区间选点问题

【例题1】给定N（N≤ 1 0 5 10 5 ）个闭区间[ 𝑎 𝑖 a i, 𝑏 𝑖 b i]（闭区间是指包含左右两个端点的区间），请你在数轴上选择尽量少的点，使得每个区间内至少包含一个选出的点。输出选择的点的最小数量。位于区间端点上的点也算作区间内。（ − 1 0 9 −10 9 ≤ 𝑎 𝑖 a i≤ 𝑏 𝑖 b i≤ 1 0 9 10 9 ）【问题分析】因为不方便展示同一数轴上的区间，所以把区间上下平移了。举例如下：

上述图片是给定了8个区间，分别编号1~8，应该如何选择我们的策略呢？

以下为两个区间之间可能的3种关系。（1）如果只有两个区间3区间和4区间，我们必须选择两个点使得每个区间内至少包含一个点；（2）如果只有两个区间1区间和2区间，那么我们肯定选择在1区间和2区间重合的部分放点；（3）如果只有两个区间6和7区间，我们还是选择在两个区间重合的地方放点。那么我们是是优先选择点在区间中间位置？还是优先选择点在区间开始位置？亦或是选择点在区间结束位置？很明显，我们应该尽量选择重合区间结束的位置，因为这样才能保证选择的点也能尽量在后面的区间中。思路：按右端点从小到大排序，然后顺次遍历这些区间，每次选取当前区间的右端点，然后略过含这个右端点的区间，直到遍历到下一个不含这个点的区间，再取这个区间的右端点，以此类推。证明：假设ans是最优解（正确答案），cnt是可行解（贪心答案），显然有ans≤cnt。反证法证明ans≥cnt。我们将这cnt个点所在那些区间取出来，显然它们是不相交的（若相交，则贪心求解的是cnt-1个点），得出最多有cnt个两两不相交的区间，覆盖每个区间至少需要cnt个点。因此ans≥cnt。综上ans=cnt，证明完毕。代码如下：

#include <bits/stdc++.h>
using namespace std;
struct Range {
    int l, r;
} range[100010];
bool cmp(Range a, Range b) {  // 按照右端点从小到大排序
    return a.r < b.r;
}
int main() {
    int n, ans = 0, ed = INT_MIN;  //ed表示上一个点的位置
    cin >> n;
    for (int i = 0; i < n; i++) {
        cin >> range[i].l >> range[i].r;
    }
    sort(range, range + n, cmp);
    for (int i = 0; i < n; i++) {
        if (range[i].l > ed) {
            ed = range[i].r;  // 在当前区间的右端点放一个点
            ans ++ ;
        }
    }
    cout << ans;
}

经典模型二：最大不相交区间数量问题

【例题2】给定N个闭区间[𝑎𝑖a i ,𝑏𝑖b i ]，请你在数轴上选择若干区间，使得选中的区间之间互不相交（包括端点）。输出可选取区间的最大数量。（数据范围和上一题一致）【问题分析】有以下三种策略：① 优先选择区间长度较小的？② 优先选择开始位置靠前的？③ 优先选择结束位置靠前的？大胆假设：选择右端点最靠前的区间，这样可能对后面区间的影响最小。证明：假设ans是最优解（正确的答案），表示最多不相交区间的数量；cnt是可行解，表示用贪心算法求出cnt个不相交的区间，显然有ans≥cnt。反证法证明ans≤cnt。假设ans>cnt，由最优解的含义知，最多有ans个不相交的区间，因此至少需要ans个点才能覆盖所有区间，而根据贪心算法知，只需cnt个点就能覆盖全部区间，且cnt<ans，这与上面分析“至少需要ans个点才能覆盖所有区间”相矛盾，故ans≤cnt。综上所述ans=cnt。思路：首先将每个区间按照右端点从小到大进行排序。ed表示当前放置在数轴上的点的位置，开始初始化为无穷小，表示没有放置，此时数轴上没有点之后依次遍历排序好的区间。如果区间的左端点大于当前放置点的位置，说明当前点无法覆盖区间，则把点的位置更新成该区间的右端点，表示在该区间的右端点放置一个新的点，同时更新点的个数。代码如下：

#include <bits/stdc++.h>
using namespace std;
struct Range {
    int l, r;
} range[100010];
bool cmp(Range a, Range b) {
    return a.r < b.r;
}
int main() {
    int n, ans = 0, ed = INT_MIN;
    cin >> n;
    for (int i = 0; i < n; i++) {
        cin >> range[i].l >> range[i].r;
    }
    sort(range, range + n, cmp);
    for (int i = 0; i < n; i++) {
        if (range[i].l > ed) {
            ed = range[i].r;
            ans ++ ;
        }
    }
    cout << ans;
}

我们会发现，和上一题的代码一样。为什么最大不相交区间数等同于最少区间点数呢？因为如果几个区间能被同一个点覆盖，说明他们相交了，所以有几个点就是有几个不相交区间。

经典模型三：区间分组问题

【例题3】给定N个闭区间[𝑎𝑖a i ,𝑏𝑖b i ]，请你将这些区间分成若干组，使得每组内部的区间两两之间（包括端点）没有交集，并使得组数尽可能小。输出最小组数。（数据范围同上）【问题分析】按照之前两题的经验，我们大胆假设：右端点排序。但是你稍作思考就会想到：假设有如下图所示的4个区间，按照右端点排序是1、2、3、4，进行分组得到的结果

因此按照右端点排序会找到一个反例，假设不成立。接下来我们考虑左端点排序行不行？思路：左端点排序，从前往后处理每个区间，判断能否将其放到某个现有的组中。如果不存在，则开新组放入，如果存在，则放进该组并更新该组的最大右端点。证明：假设ans是最优解，表示最少需要ans个组；cnt是可行解，表示算法找到cnt个组，显然有ans≤cnt。反证法证明ans≥cnt。考虑在开辟第cnt个组的过程：算法此时已经开辟了cnt−1个组，组内区间两两不相交，组间区间有交集，且当前遍历区间的左端点均小于各组所有区间中最大的右端点，即当前遍历的区间一定与各组区间相交，此时必须要开辟新的组放入新的区间，因此至少需要cnt个组，即ans≥cnt。综上所述ans=cnt。代码如下：

#include <bits/stdc++.h>
using namespace std;
struct Range {
    int l, r;
} range[100010];
int arr[100010], idx;
bool cmp(Range a, Range b) {  //按照左端点排序
    return a.l < b.l;
}
int main() {
    int n;
    cin >> n;
    for (int i = 0; i < n; i++) {
        cin >> range[i].l >> range[i].r;
    }
    sort(range, range + n, cmp);
    for (int i = 0; i < n; i++) { // n个区间
        bool f = 1; // 默认需要开辟新空间
        for (int j = 0; j < idx; j++) {
            if (arr[j] < range[i].l) { // 第i个区间可以放到第j组
                arr[j] = range[i].r; // 放到第j组，更新j组的右端点
                f = 0;
                break;
            }
        }
        if (f) { //f是1，需要开辟新空间
            arr[idx] = range[i].r;
            idx++;
        }
    }
    cout << idx;
}

在代码求解最小组数时用了双重for循环，时间复杂度为O(n2)，提交代码可能会超时。可以用二叉堆（优先队列）优化程序，时间复杂度变为O(nlogn)，由于还没讲过这种数据结构，我们还是以理解贪心的思路为主。

经典模型四：区间覆盖问题

【例题4】给定N个闭区间[𝑎𝑖a i ,𝑏𝑖b i ]以及一个线段区间[s,t]，请你选择尽量少的区间，将指定线段区间完全覆盖。输出最少区间数，如果无法完全覆盖则输出−1。【问题分析】如下图所示，我们来分析这一题的思路

对于线段区间[s,t]，最多的选法就是全部选择，得到答案5个区间。但是题目要求最少的区间数覆盖掉[s,t]，所以我们可以选择[a1,b1]、[a3,b3]、[a5,b5]，答案就是最少的区间数3个。为什么不选[a2,b2]呢，很明显我们选择[a1,b1]会更好。为什么不选[a4,b4]呢，很明显[a3,b3]和[a5,b5]已经覆盖掉[a4,b4]了。我们可以这样考虑求解过程，当选择了[a1,b1]，此时我们将线段区间的s更新为b1；然后再去选择下一个可选的区间[a3,b3]，继续将s更新为b3；这时[a4,b4]与[a5,b5]都能覆盖[s,t]（的一部分），按照上述规则，我们优先选择b更靠后的区间[a5,b5]，最终得到答案3个。于是我们可以大胆假设：首先将所有区间按左端点从小到大排序，之后从前往后依次枚举每个区间，在所有能覆盖start的区间中选择右端点最大的区间，并将start更新成右端点的最大值。证明思路正确性（选学）：假设ans是最优解，表示最少需要ans个区间；cnt是可行解，表示算法找到cnt个区间满足覆盖，显然有ans≤cnt。采用反证法证明ans≥cnt。假设最优解由k个区间组成，各区间按右端点从小到大排序，右端点依次记为a1,a2,…,ak，显然一定有t≤ak，否则最优解没有覆盖到线段区间[s,t]的右端点t，不满足覆盖条件；同理，假设算法求得m(m>k)个区间，各区间按右端点从小到大排序，右端点依次记为b1,b2,…,bk,…,bm，显然一定有bk<t≤bm。t≤bm是为了满足覆盖条件；bk<t是因为bk不是最后一个区间的端点，如果bk≤t，则：考虑最优解和贪心算法各自获得的第1个区间的右端点a1和b1，由于贪心算法选取右端点距离起点s最大的区间，故一定有a1≤b1；贪心算法又以b1为起点，找一个右端点距离b1最大的区间，最优解选取的第2个区间的右端点a2不可能超过b2，否则存在一个区间的长度a2−a1大于b2−b1，这与贪心算法矛盾，故一定有a2≤b2；同理一定有ak≤bk，由于bk<t，故ak<t，这说明最优解没有覆盖线段区间[s,t]，矛盾；故ans≥cnt。综上所述ans=cnt。代码如下：

#include <bits/stdc++.h>
using namespace std;
struct Range {
    int l, r;
} range[100010];
bool cmp(Range a, Range b) { // 按照左端点从小到大排序
    return a.l < b.l;
}
int main() {
    int n, s, t, ans = 0;
    cin >> s >> t >> n;
    for (int i = 0; i < n; i++) {
        cin >> range[i].l >> range[i].r;
    }
    sort(range, range + n, cmp);
    for (int i = 0; i < n; i++) {  //第16行
        // maxr表示所有包含s的区间中右端点的最大值
        int maxr = INT_MIN, j;
        for (j = i; j < n && range[j].l <= s; j++) {  //第19行
            maxr = max(maxr, range[j].r);
        }
        // 中间某次覆盖不了 或者 所有区间的最右边都<t，均为无解
        if (maxr < s || (i == n - 1 && maxr < t)) {
            ans = -1;
            break;
        }
        ans++;
        if (maxr >= t) { //得到解
            break;
        }
        s = maxr; //更新区间起点为当前选择区间的右端点
        i = j - 1; //19行j++和将执行的16行i++会多加1，所以下标变为j-1
    }
    cout << ans;
}

注意理解i=j-1这一行。因为19行跳出循环的时候j++会多算一次，实际上结束19行的for循环后我们选择的是第j-1个区间，之后可以从第j个区间开始选，但是16行的i++会在i=j-1赋值后执行一遍，所以这里赋值为j-1。兵无常势，水无常形，贪心算法非常考验同学们的思维。学习贪心算法没有固定的程序模板，因此请看官们记住贪心的学习方法：大胆假设，小心求证；多练习，多思考，多总结。