字符串匹配新秀之Sunday

最新推荐文章于 2012-01-31 22:37:11 发布

shifuwawa

最新推荐文章于 2012-01-31 22:37:11 发布

阅读量1.2k

点赞数

分类专栏：数据结构算法相关文章标签：算法 import string class fun

本文链接：https://blog.csdn.net/shifuwawa/article/details/5183466

版权

数据结构算法相关专栏收录该内容

29 篇文章 1 订阅

订阅专栏

Sunday算法的大致思想是，以pos表示本次匹配的目标串tar的起始位置，len_m表示模式串的长度，当出现不匹配的时候，看从pos开始长为len_m的一段字串的最后一个字符k是否在模式串中出现过，判断是否出现过是通过从右到左扫描模式串得到的，只要碰到k，记录下其位置i，将pos+i作为新的pos（pos+=i）,继续匹配。这就扯出了next数组，不要将这个next数组跟KMP中的数组牵连起来，二者没任何关系。next数组就是记录模式串中的字母离串尾的距离，若某个字符重复出现，则只记录最右边的那个，next初始值是模式串的长度，即如果某个字符没在mode串中出现，那么pos移动时就是整体平移一个模式串的距离。next[i]表示字母i距离模式串末尾的距离，pos+next[k]表示将目标串的本次起始位置pos移动next[k]个单位，这样，新的pos位置与k的距离正好是模式串串首到k的距离。因为原来是pos-->pos+len_m,pos右移到pos+next[k]后，那么距离pos+len_m就是len_m-next[k],正好是模式串串首到k的距离。这种匹配模式思想大体上就是从中间某个字符开始匹配，这样的好处是增大了匹配成功的概率，极大减少了无用匹配次数（如rat="abcabe",mode="abe",mode与tar的前一个"ab"的匹配就是无用匹配，因为第三个字符不再匹配），有些情况下比KMP效率高，并且相对容易理解。
给个实现：
import java.util.*; import java.io.*; import java.math.*; public class Main { int Sunday(char[] tar,char[] mode)//传递进模式串及目标串 { int len_t=tar.length,len_m=mode.length;//分别记录目标串和模式串长度 int i,j; int[] next;// next=new int[26];//只针对小写字母 for(i=0;i<26;++i) next[i]=len_m; for(i=0;i<len_m;++i) next[mode[i]-'a']=len_m-i; int pos=0; while(pos<len_t-len_m+1)//pos后的串的长度不能短于模式串 { i=pos; for(j=0;j<len_m;++i,++j) if(tar[i]!=mode[j]) { pos+=next[tar[pos+len_m]-'a']; break; } if(j==len_m) return pos; } return -1; } public static void main(String[] pzjay) { Scanner pz=new Scanner(new BufferedInputStream(System.in)); Main fun=new Main(); char[] tar,mode; tar=new char[1000]; mode=new char[500]; String sa="abcdefaegababgae"; String sb="abgae"; tar=sa.toCharArray(); mode=sb.toCharArray(); System.out.println(fun.Sunday(tar,mode)); } }

既然是字串匹配新秀，就顺便说说一个更容易理解的模式匹配算法，但论效率个个都是雄于KMP：ZZL算法

相当容易：

整个程序需要两部
预处理
预处理主要完成查找模式串首字符在主串中的所有出现位置，并将其保存在一个数组中。

匹配
在预处理的基础上，字符串匹配算法就可以从查找到的模式串在主串中的位置开始，匹配模式串首字母之后的其余部分。此时，采用BF算法（最闻名而又最笨的字串匹配算法），并可设置一个计数器，记录匹配次数。

实现狠容易，自己看着办— —

PS:本人写博，纯属装X(a<X<c). 本文遵从CC协议，pz伯伯原创，转载注明出处。

shifuwawa

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
字符串匹配新秀之Sunday

Sunday算法的大致思想是，以pos表示本次匹配的目标串tar的起始位置，len_m表示模式串的长度，当出现不匹配的时候，看从pos开始长为len_m的一段字串的最后一个字符k是否在模式串中出现过，判断是否出现过是通过从右到左扫描模式串得到的，只要碰到k，记录下其位置i，将pos+i作为新的pos（pos+=i）,继续匹配。这就扯出了next数组，不要将这个next数组跟KMP中的数组牵连起来，
复制链接

扫一扫

专栏目录