这几天总结了一下总结了一下字符串匹配的几种算法,BF、KMP和Boyer-Moore,Sunday算法,觉得就KMP算法难于理解,其余三种都非常容易理解掌握。 串匹配:给一个目标串(源串)和模式串(子串),在目标串中找出模式串第一次出现的位置,或者目标串中找不到这样一个模式串。
暴力匹配法(BF):就是挨个比较,产生失配了就把模式串往后移动一个位置接着和目标串比较。直到模式串所有字符匹配上了,或者目标串里面不存在这样的模式串。没找到这样的模式串。
int BF_StrMatching(char *libraryStr, char *subStr) {
int i;
int j;
int libraryStr_len = strlen(libraryStr);
int subStr_len = strlen(subStr);
for(i = 0; i < (libraryStr_len- subStr_len); i++) {
for(j = 0; subStr[j] && libraryStr[i+j] == subStr[j]; j++) {
}
if(j == subStr_len) {
return i;
}
}
return -1;
}
KMP算法是模式匹配中的经典算法,理解起来很费劲,花了很长的时间去理解这个算法。和暴力匹配相比KMP的不用电是消除BF算法中目标串指针回溯的情况,不必每次从头开始重新比较,也就是说在目标串移动的指针一直是从前往后走的。只需要每次失配的手,计算好下一次模式串从哪个位置继续匹配,需要准备额外的一个数组next,开始匹配之前,需要对模式串进行处理,申请一个和模式串相同长度的数组,数组的作用是,当模式串进行匹配失配了的时候,下一次匹配从模式串哪个位置继续开始匹配。kmp算法的难点就在于next数组的求解,以及理解next数组的作用。
在求next数组前先求一下模式串中各个子串最大前缀后缀元素长度