给定一个长度为N的序列A,ST算法能在 O(NlogN)时间的预处理后,以O(1)的时间复杂度在线回答“数列A中下标在 l ~ r 之间的数的最大值是多少”这样的区间最值问题。
一个序列的子区间个数显然有 O(N^2)个,根据倍增思想,我们首先在这个规模为O(N^2)的状态空间里选择一些 2 的整数次幂的位置作为代表值。
设 F[i , j] 表示数列 A 中下标在子区间 [i, i + 2^j -1] 里的数的最大值,也就是从 i 开始的 2^j 个数的最大值。递推边界显然是 F[i, 0] = A[ i ],即数列 A 在子区间 [i, i] 里的最大值。
在递推时,我们把子区间的长度成倍增长,有公式 F[i, j] = max (F[i, j-1] , F[i + 2^(j-1), j-1]),即长度为 2^j 的子区间的最大值是左右两半长度为 2^(j-1) 的子区间的最大值中较大的一个。
void ST_prework() {
for(int i = 1; i<= n; i++) F[i][0] = a[i];
int t = log(n) / log(2) + 1;
for(int j = 1; j < t; i++) {
for(int i = 1; i <= n - (1<<j) + 1; i++)
F[i][j] = max(F[i][j-1], F[i+(1<<(j-1))][j-1]);
}
}
当询问任意区间 [l, r] 的最值时,我们先计算出一个 k,满足 2^k < r - l + 1 <= 2^(k+1),也就是使得 2 的 k 次幂小于区间长度的前提下最大的 k 。那么 “从 l 开始的 2^k 个数” 和 “以 r 结尾的 2^k个数”这两段一定覆盖了整个区间,这两段的最大值分别是 F[l, k] 和 F[r - 2^k + 1, k],二者中较大的那个就是整个区间 [l, r] 的最值。因为求的是最大值,所以这两段只要覆盖区间 [l, r] 即可,即使有重叠也没关系。
int ST_query(int l, int r){
int k = log(r-l+1) / log(2);
return max(F[l][k], F[r-(1<<k)+1][k]);
}