RMQ (Range Minimum/Maximum Query)算法---ST算法

最新推荐文章于 2024-03-20 16:35:01 发布

是Elie呀

最新推荐文章于 2024-03-20 16:35:01 发布

阅读量289

点赞数

分类专栏：专题详解 RMQ 文章标签： RMQ

RMQ 同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

专题详解

1 篇文章 0 订阅

订阅专栏

学习笔记 ST算法

【引子】RMQ (Range Minimum/Maximum Query)问题：

对于长度为N的序列，询问区间[L,R]中的最值

【方法】RMQ问题的几种解法：

普通遍历查询，O(1)-O(N)
线段树，O(N)-O(logN)
DP，O(NlogN)-O(1)
RMQ标准算法，O(N)-O(1)

简单介绍：

朴素的查询，不需要任何预处理，但结果是没有任何已知的信息可以利用，每次都需要从头遍历到尾。
线段树，区间问题的神器，用线段树做比起朴素的暴力查询要快得多，关键在于线段树使用了分治思想，利用了区间问题的可合并性。任何一个区间最多只需要logN个线段树上的区间来合并，线段树上的区间总数目为O(N)个，因此只需要O(N)的预处理就可以将查询复杂度降到O(logN)。同时线段树的树状结构使得修改时信息更容易维护。
DP，又叫ST算法，也是利用了分治的思想。任何一个区间都可以由两个小于当前区间长度的最大的长度为2的幂的区间合并而来，于是预处理出每个点开始所有长度为2的幂的区间最值，那么查询时就可以由预处理的信息O(1)得到答案。
RMQ标准算法，利用了神奇的数据结构--笛卡尔树，笛卡尔树将区间最值问题转化为树上两个点的LCA问题，而DFS可以将LCA问题转化为±1RMQ问题，±1RMQ问题又可以利用分块和动态规划的思想来解决。上述所有预处理，包括笛卡尔树的建立、DFS序以及±1RMQ的问题的求解都可以在线性时间内完成，查询时复杂度为O(1)。

标准算法的实现：

结构图：
笛卡尔树的构造算方法：从左至右扫描原序列，并依次插入到笛卡尔树的右链中，使用单调栈复杂度为O(N)。建好树后，key是二查搜索树，value是小根堆。
最小值与LCA：建好树后，区间最小值问题便转化为了LCA问题，下面简单证明一下：

假设现在询问[d, f]的最小值，root为d和f的LCA，由笛卡尔树的性质可知，root是整棵树表示区间的最小值，而[d, f]是其子区间，所以root不可能比[d, f]中的数小，又因为d和f属于root的不同子树(LCA的性质)，所以root一定在[d, f]中(笛卡尔树的性质)，故对两个点a，b，LCA(a, b)就是[a, b]的最小值，证毕。

±1RMQ问题：相邻两个数相差1或者-1的序列的RMQ问题
±1RMQ问题解法：将原长度为N的序列分成2N/logN块，每块长度为logN/2，将原来的询问分解为块间询问和块内询问。用ST算法在O(N/logN*log(N/logN))=O(N)的时间内处理出块与块之间的区间最值信息，可以在O(1)的时间内解决块与块之间的询问。对于块内的询问，由于每块长度为logN/2，相邻两个数的差不是1就是-1，于是对于区间最值出现的位置，本质不同的状态只有2logN/2=√N个，加上边界，总共状态数为O(√N*logNlogN)，利用递推在O(√N*logNlogN)的时间内求出所有状态来，以后可以在O(1)的时间内得到块内任意区间最值的位置。总复杂度为O(N + √N*logNlogN) ≈ O(N)。
LCA与±1RMQ的经典转化就不细说了，详见代码

标准RMQ，O(N)-O(1)

【例】给定数组，询问区间最小值。（无修改)

（数据范围不用线段树）

【解】可以写一个线段树，但是预处理和查询的复杂度都是O（logn)，存心的话可以给你卡掉。

　　所以采用ST算法，它可以做到O(nlogn)的预处理，O(1)地回答每个询问

　　f[i][j]表示数组p从位置i开始到位置i+2^j-1的最小值
　　f[i][j]=min(f[i+(1<<(j-1))][j-1],f[i][j-1]);f[i][0]=p[i].
　　求a~b的最小值，就是找出比b-a+1小的最大的二的幂次k
　　有ans=min(f[a][k],f[b-(1<<k)+1][k])

【原理】

nlogn预处理出Min[][]和Max[][]，查询的时候O(1)查询。

Max[j][i]或Min[j][i]代表，从j的位置开始，长度为2^i的子段中的最大值或最小值。

然后预处理的时候递推。

询问的时候先算出[l,r]的长度的2的对数，然后取出答案即可。

是一种优秀的存取方法。

【实现】(以最大值为例）：
   首先是预处理，用一个DP解决。设a[i]是要求区间最值的数列，f[i,j]表示从第i个数起连续2^j个数中的最大值。例如数列3 2 4 5 6 8 1 2 9 7 ,f[1，0]表示第1个数起，长度为2^0=1的最大值，其实就是3这个数。 f[1，2]=5，f[1，3]=8，f[2，0]=2，f[2，1]=4……从这里可以看出f[i,0]其实就等于a[i]。这样，Dp的状态、初值都已经有了，剩下的就是状态转移方程。我们把f[i，j]平均分成两段（因为f[i，j]一定是偶数个数字），从i到i+2^(j-1)-1为一段，i+2^(j-1)到i+2^j-1为一段(长度都为2^（j-1）)。用上例说明，当i=1，j=3时就是3,2,4,5 和 6,8,1,2这两段。f[i，j]就是这两段的最大值中的最大值。于是我们得到了动规方程F[i,j]=max（F[i，j-1],F[i+2^(j- i)，j-1]）.

   接下来是得出最值，也许你想不到计算出f[i，j]有什么用处，想计算max还是要O(logn)，甚至O(n)。但有一个很好的办法，做到了 O（1）。还是分开来。如在上例中我们要求区间[2，8]的最大值，就要把它分成[2,5]和[5,8]两个区间，因为这两个区间的最大值我们可以直接由 f[2，2]和f[5，2]得到。扩展到一般情况，就是把区间[l，r]分成两个长度为2^n的区间（保证有f[i，j]对应）

【模板代码】

//ST(Sparse-Table)算法 
void RMQ(){
    for(int i=1 ;i<=n ;i++) dp[i][0]=a[i]; 
    //注意从j变量在外层，先求短区间 
    for(int j=1 ;(1<<j)<=n ;j++){
        for(int i=1 ;i+(1<<j)-1<=n ;i++){
            dp[i][j] = max(dp[i][j-1],dp[i+(1<<(j-1))][j-1]);
        }           
    }
}
//求k代码 
int k = (int)(log(y - x + 1.0) / log(2.0));  
//求最值 
int ans = max(dp[x][k],dp[y-(1<<k)+1][k]);

转自 SBSOL，On the Way

1. 概述

RMQ（Range Minimum/Maximum Query），即区间最值查询，是指这样一个问题：对于长度为n的数列A，回答若干询问RMQ（A,i,j）(i,j<=n)，返回数列A中下标在i，j之间的最小/大值。这两个问题是在实际应用中经常遇到的问题，下面介绍一下解决这两种问题的比较高效的算法。当然，该问题也可以用线段树（也叫区间树）解决，算法复杂度为：O(N)~O(logN)，这里我们暂不介绍。

2.RMQ算法

对于该问题，最容易想到的解决方案是遍历，复杂度是O(n)。但当数据量非常大且查询很频繁时，该算法无法在有效的时间内查询出正解。

本节介绍了一种比较高效的在线算法（ST算法）解决这个问题。所谓在线算法，是指用户每输入一个查询便马上处理一个查询。该算法一般用较长的时间做预处理，待信息充足以后便可以用较少的时间回答每个查询。ST（Sparse Table）算法是一个非常有名的在线处理RMQ问题的算法，它可以在O(nlogn)时间内进行预处理，然后在O(1)时间内回答每个查询。

（一）首先是预处理，用动态规划（DP）解决。

设A[i]是要求区间最值的数列，F[i, j]表示从第i个数起连续2^j个数中的最大值。（DP的状态）

例如：

A数列为：3 2 4 5 6 8 1 2 9 7

F[1，0]表示第1个数起，长度为2^0=1的最大值，其实就是3这个数。同理 F[1,1] = max(3,2) = 3, F[1，2]=max(3,2,4,5) = 5，F[1，3] = max(3,2,4,5,6,8,1,2) = 8;

并且我们可以容易的看出F[i,0]就等于A[i]。（DP的初始值）

这样，DP的状态、初值都已经有了，剩下的就是状态转移方程。

我们把F[i，j]平均分成两段（因为f[i，j]一定是偶数个数字），从 i 到i + 2 ^ (j - 1) - 1为一段，i + 2 ^ (j - 1)到i + 2 ^ j - 1为一段(长度都为2 ^ (j - 1))。用上例说明，当i=1，j=3时就是3,2,4,5 和 6,8,1,2这两段。F[i，j]就是这两段各自最大值中的最大值。于是我们得到了状态转移方程F[i, j]=max（F[i，j-1], F[i + 2^(j-1)，j-1]）。

代码如下：

void RMQ(int num) //预处理->O(nlogn)
{
	for(int j = 1; j < 20; ++j)
		for(int i = 1; i <= num; ++i)
			if(i + (1 << j) - 1 <= num)
			{
				maxsum[i][j] = max(maxsum[i][j - 1], maxsum[i + (1 << (j - 1))][j - 1]);
				minsum[i][j] = min(minsum[i][j - 1], minsum[i + (1 << (j - 1))][j - 1]);
			}
}

这里我们需要注意的是循环的顺序，我们发现外层是j，内层所i，这是为什么呢？可以是i在外，j在内吗？

答案是不可以。因为我们需要理解这个状态转移方程的意义。

状态转移方程的含义是：先更新所有长度为F[i,0]即1个元素，然后通过2个1个元素的最值，获得所有长度为F[i,1]即2个元素的最值，然后再通过2个2个元素的最值，获得所有长度为F[i,2]即4个元素的最值，以此类推更新所有长度的最值。

而如果是i在外，j在内的话，我们更新的顺序就是F[1,0],F[1,1],F[1,2],F[1,3],表示更新从1开始1个元素，2个元素，4个元素，8个元素（A[0],A[1],....A[7]）的最值，这里F[1,3] = max(max(A[0],A[1],A[2],A[3]),max(A[4],A[5],A[6],A[7]))的值，但是我们根本没有计算max(A[0],A[1],A[2],A[3])和max(A[4],A[5],A[6],A[7])，所以这样的方法肯定是错误的。

为了避免这样的错误，一定要好好理解这个状态转移方程所代表的含义。

（二）然后是查询。

假如我们需要查询的区间为(i,j)，那么我们需要找到覆盖这个闭区间(左边界取i，右边界取j)的最小幂（可以重复，比如查询5，6，7，8，9，我们可以查询5678和6789）。

因为这个区间的长度为j - i + 1,所以我们可以取k=log2( j - i + 1)，则有：RMQ(A, i, j)=max{F[i , k], F[ j - 2 ^ k + 1, k]}。

举例说明，要求区间[2，8]的最大值，k = log2（8 - 2 + 1）= 2，即求max(F[2, 2]，F[8 - 2 ^ 2 + 1, 2]) = max(F[2, 2]，F[5, 2])；

在这里我们也需要注意一个地方，就是<<运算符和+-运算符的优先级。

比如这个表达式：5 - 1 << 2是多少？

答案是：4 * 2 * 2 = 16。所以我们要写成5 - (1 << 2)才是5-1 * 2 * 2 = 1。

3.例题剖析：

http://blog.csdn.net/niushuai666/article/details/7400587

转载自飘过的小牛