主席树的发明,源于权值线段树,所以我们先来看看权值线段树。
该篇博客以poj2104为例,逐步详解。
2104大致题意: n个数,m个询问。每个询问会给一组[l,r,k],求区间(l,r)之间的第k小值。
权值线段树
在上面的例子中,假设我们只涉及一个区间的修改以及查询,那么我们就可以建立一个权值线段树。权值线段树是记录权值的线段树。记录权值指的是,每个节点上存的是区间内的数字出现的总次数。
比如一个长度为4的数组[1,2,3,3]的权值线段树如图所示:
其中,1和2各出现了一次,3出现了2次,所以权值线段树的叶子节点记录的是每个数字出现的次数。若想知道第k小,那么log(n)的复杂度即可实现,因为线段树修改以及查询只涉及该点所在的树枝。若我想求此例中的第2小,那么先找树的根节点为4,表示[1,4]有4个数,继续查找左子树,左孩子的值为2,那么第二小必在左子树上,继续向下查找。查找左子树的右叶子节点即可。这就是一个区间的查询方法。
如果查询某一区间内的呢?我们刚刚举的例子只能实现从头开始的区间,并不能实现(l,r)区间内的第k大。类似于求前缀和,我们保存所有的历史版本,用sum[r]-sum[l-1]。这就是可持续化线段树。我们可以每输入一个a[i],就构造一棵保存从a[1]到a[i]的权值线段树。这样我们就可以把第j棵树和第(i-1)棵树上的权值相减,得到一颗崭新的权值线段树,可二分查找求出(i,j)区间上第k大。看大佬的代码时学到了STL的lower_bound函数。
这是一次查询,涉及到多次查询时这个方法就会超内存。众所周知线段树开数组时要开原数组的4倍,那么对于2104,我们对每个区间建立一个线段树求解,明显会超内存,这时就出现了主席树。
主席树
在刚刚对每一个区间建立线段树的时候我们会发现,每添加一个新的数,只会对该数所在的节点分支产生影响,即只有log(n)的节点改变了,其他的还是照常不变,这样就会浪费很多空间,于是我们抹去相同节点,只保留改变了的节点,那么实际的开销只有n*(4+logn),满足空间要求。
仔细观察2104的数据范围后,我们如果单单按照数字大小来建树的话,会浪费很多空间,于是大佬们引入了一个叫离散化的东西。
有关离散化:大佬说,离散化是一种映射关系。对于2104,我们的方法就是把n个数排序,最小的映射为1,次小的映射为2,以此类推(大佬说还要记得去重),比如{5,6,3,2},离散化后的数组为{3,4,2,1}。
void Discret(int b[]){
sort(b+1,b+1+n); //先排序
cnt = unique(b+1,b+1+n) - b - 1; //再去重
}
相关操作:
更新:
void Update(int l,int r,int &x,int y,int pos){
int mid = (l+r)>>1;
tree[++res] = tree[y]; //新的线段树与之前的连接起来
tree[res].num++; //包含新的节点值pos
x = res;
if(l==r){
return; //创建完
}
if(pos<=mid){
Update(l,mid,tree[x].l,tree[y].l,pos);
}
else{
Update(mid+1,r,tree[x].r,tree[y].r,pos);
}
}
然后就是2104的ac代码
#include<iostream>
#include<stdio.h>
#include<algorithm>
using namespace std;
const int maxn = 1e5 +5;
struct HJTree{
int l,r,num; //num记录有多少个数
}tree[maxn*