原文:https://blog.hwg1998.com/blog/105
大概看了一下,距离上次记录学习笔记已经过去了将近100天了,这段时间忙着出差,写论文(到现在为止还没消息,难过。。)。今天开始继续坚持写笔记,这样才能最大效率的进步。
动态规划是我接触的第一个算法或者是思想吧,挺难的,学了快一星期了,还没熟练掌握技巧。学习的过程中接触到一些比较经典的算法,特此记录。
###1.0 Question
KMP算法是为了解决字符串匹配问题。具体来说,给出字符串S和P,检查P是否为S的子串,如果是的话,给出P在S中的坐标。
####1.1 BF
暴力算法(Brute-Force)就是简单的穷举,实现起来比较简单,就不多说了。
###2.0 How
####2.1 next 数组
为了加快匹配的效率,next数组出现了。P串假设为abcabd
,相对应的next数组也定义为同等长度的整数数组。next[i]
代表P[0]~P[i]
的后缀集合与P[i]
的前缀集合的交集的最大值(最长的那个的长度)。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PSuFFjCJ-1631635474674)(https://gitee.com/NCUHWG/img-set/raw/master/ccf/kmp_next.png “//图 kmp_next”)]
举个例子,当i=4
的时候abcab的后缀集合为{a,ab,abc,abca}
,前缀集合为{b,ab,cab,bcab}
,交集为{ab}
,那么next[4]=len(ab)=2
####2.2 match
如果把模式串视为一把标尺,在主串上移动,那么 Brute-Force 就是每次失配之后只右移一位;改进算法则是每次失配之后,移很多位,跳过那些不可能匹配成功的位置。
如上图所示,每次失配,都将j的值设置为next[j-1],这样能减少重复的匹配工作。最大限度的利用了之前的结果。
###3.0 Implement
####3.1 generate next array
快速求next数组是KMP算法的核心,这里的求法非常的巧妙,蕴含了动态动画的思想,理解之余不禁拍手称妙。
- 状态 :dp[i]表示P[0]~P[i]的next值。
- 转移方程如下,
dp[i] = max{dp[j-1]+1, 0<j<=i & P[i]==P[j]}
方程这样写比较好看,但是具体实现的时候不用求max,利用next数组的特性去求比较快。可以去看一下参考文章或者代码实现。 - 初始化 dp[0] = 0
- 边界条件 …
####3.2 code
具体实现的时候,困扰我最多的地方反而是后面匹配的时候。我的leetcode代码如下,
string haystack="hello",needle="ll";
int n = haystack.size(),m=needle.size(),temp=0,i=0,j=0,flag=0;;
if(m==0) return m;
if(n<m) return -1;
vector<int> next(m,0);
// next[0]=-1;
// 计算 next数组 dp
for(int i = 1;i<m;i++){
//如果匹配上
if(needle[i]==needle[next[i-1]]){
next[i] = next[i-1]+1;
continue;
}
next[i]=0;
temp = next[i-1];
while(temp>0){
if(needle[i]==needle[next[temp-1]]){
next[i] = next[temp-1]+1;
break;
}
temp = next[temp-1];
}
}
//KMP algorithm
temp = -1;
while(i<n&&j<m){
// if(temp==-1 && n-i<m) break;
if(haystack[i] == needle[j]){
temp = i-j;
j++;i++;
if(j >= m ) {flag=true;break;}
continue;
}
//已开始匹配
if(temp != -1){
temp = -1;
j=next[j-1];
continue;
}
if(j != 0){
j = next[j-1];
}else{
i++;
}
}
if(!flag) temp = -1;
cout<<temp<<endl;
return temp;
###4.0 ref
如何更好地理解和掌握 KMP 算法