并查集
初始化将每个节点包装成一个个集合,每个集合中存放这个元素并使其父节点指向自己。建立三个数据结构。
1.v → Element 表示集合的节点类,将原始输入元素包装成集合的类节点。
2.Element → Element 一个将每个节点指向父节点的映射
3.Element → size 这个Element指一个集合中,获得所有节点的祖先节点,他的父节点就是自己,作为一个集合的代表节点,并将其映射到集合的规模。
并查集的相关操作
- 查找代表节点findheap:对于一个集合中每一个节点,可以通过数据结构2寻找父节点,并不断往上遍历寻找。直到找到唯一的最顶层的祖先节点,此节点的父节点指向自己,就是一个集合的代表节点。如下图的1节点。
- 集合合并union:对于两个集合,获得他们的代表节点。在数据结构3,获得各自的size,将size进行比较。对规模较小的集合,把其代表节点的父节点由指向自己变为指向规模较大的代表节点,这样就形成了一个新的集合,代表节点为原规模较大的集合的代表节点。
- 查询find,判断两个节点是否属于一个集合:参考findheap过程,只需对两个节点findheap,得到各自代表节点,代表节点若是同一个,则为同一个节点。
KMP算法
从一个字符串中寻找连续子串的问题,令str为主串,k为寻找的部分
经典算法
要解决这类问题,经典的最简单的方法就是将k的首个字符在str上遍历比对(第一层循环),相等时k和str同时遍历并一个个匹配直到k全部遍历完,若有不匹配的则跳过这层循环回到第一层循环(第二层循环)。
kmp的过程
- 如下图str与k在匹配过程中,假设j作为k的遍历index,在k[j=14]处出现不匹配的情况
-
此时要做的就是获得k[0,13]的前缀和后缀最大匹配长度,即从首尾分别开始计算最长的字串相等的部分长度。如图所示的k字符串a=k[0,4]与b=k[8,13]为前缀与后缀最长匹配部分,记为L=6
-
对于经典算法,此时str[i,…]与k并不匹配,于是跳到str[i+1,…]继续与k对比。对于kmp来说,相当于把k移动到str[i+j-L,…]再进入第二层循环。并且由于已经有L长度的匹配部分,可以直接令j=L,计算剩下的部分。
KMP的证明
-
是否在k中存在某个位置index=m,使得m不属于前后缀匹配的部分,但可以使得k从str的i+m位置开始,得到k的成功匹配?
用反证法
若m-j之间与k匹配,则k[m~j]等于k[0,j-m+1],且j-m+1大于L,从我们对于L的定义,这个m是不存在的,因此不会存在这种情况。
KMP算法实现
左神的算法,其中的i1就当成上述的i+ j同时i1++相当于i + (j++)
public static int getIndexOf(String str , String k ) {
if(str == null || k == null || k.length() < 1 || str.length() < k.length()) return 1;
char[] str1 = str.toCharArray();
char[] str2 = k.toCharArray();
int i1 = 0;
int i2 = 0;
int[] next = getNextArray(str2);//遍历k的数组,获得任意一个位置i,k[0~i]的最大前后缀长度,保存到next数组中
while( i1 < str1.length && i2 < str2.length) {
if(str1[i1] == str2[i2]) {
i1++;
i2++;
}else if (next[i2] == -1 ){//next[0]设置为-1
i1 ++ ;
}else{
i2 = next[i2];
}
}
return i2 == str2.length ? i1 - i2 : -1;
}
public static int[] getNextArray(char[] ms) {
if (ms.length == 1) {
return new int[]{-1};
}
int[] next = new int [ms.length];
next[0] = -1;
next[1] = 0;
int i = 0;
int cn = 0;
while ( i < next.length) {
if(ms[i-1]==ms[cn]) next[i++] = ++cn;
else if(cn > 0) cn = next[cn];
else next[i++] = 0;
}
return null;
}
对于next数组的获得
逻辑是,next[i]计算字符串0~i-1的最大前后缀长,关于i与其前一项作递推式,若原数组ms[i-1] == ms[next[i-2] + 1] [//]: # (指对于next[i-1]获得的前后缀,他们各自的下一项是否相等),next[i]=next[i-1]+1。
若不相等,令cn=next[i-2],cn**=**next[cn][//]: # (把前缀子串的前缀字串去和i-1项相比较)取代next[i-2]对应子串去比较,不相等继续迭代;最后next[i]更新为next[cn]的值。