Sunday算法是比KMP和BM还要高效的模式匹配算法,这里我自己学习并实现如下,以备以后要用到。
关于KMP和BM的相关知识就不介绍,网络上的资源很对,这里有个KMP的讲解的非常好:<从头到尾彻底理解KMP>http://blog.csdn.net/v_july_v/article/details/7041827
关于sunday的原理查看这里:http://blog.csdn.net/cogbee/article/details/8443249 通俗易懂我这里只列出推到结果 和 我自己实现的代码(代码中写了相应注释助于理解)
这里使用上面KMP的例子:
文本串:BBCABCDABABCDABCDABDE
模式串:ABCDABC
sunday只用了4次大的调转就达到匹配的效果。
code如下:
#include <iostream>
using std::cout;
using std::endl;
int sunday(const char* str, const char* pattern)
{
//打印 文本串和模式串
cout << str << endl;
cout << pattern << endl;
int location = -1;//返回位置,如果没有找到则返回-1
int str_len = strlen(str);//文本串长度
int sub_len = strlen(pattern);//模式串长度
int *mark = new int[sub_len + 1];
for (int i = 0; i < sub_len; ++i)mark[i] = sub_len - i;//模式串的逆序索引,并标记需要移动的位数
int si = 0; //文本串的索引,每次从该字符开始匹对
int pi = 0;//模式串的索引
int pl = -1;//模式符串长度后面一位在 模式串中 从后往前的位置,每次初始化为-1
while (si<=str_len-sub_len)
{
pl = -1;//每次初始化为-1
int strl = si;//从模式串头和文本串si位置开始逐一匹配
for (pi = 0; pi < sub_len; ++strl, ++pi)
{
if (str[strl] != pattern[pi])break;//找到有不匹配的就跳出
}
//如果匹配成功,则返回si(匹配的首位置)
if (pi == sub_len)
{
location = si ;
break;
}
else
{ //没有匹配成功 这查看搜模式符串长度后面一位在模式串中的位置
for (int i = sub_len-1; i < sub_len && i>=0; --i)//从后开始找
{
if (str[strl + mark[pi]] == pattern[i])
{
pl = i;
break;
}
}
if (pl != -1)
{
si += mark[pl];
}
else
{ //不存在则直接跳到该字符后一个字符,因为该字符不再模式串中所以不需要比较就直接从下一个字符开始比较
si += mark[pi]+1;
}
}
}
return location;
}
测试main函数如下:
#include <iostream>
#include "SundayMatch.hpp"
using namespace std;
int main()
{
cout << sunday("BBCABCDABABCDABCDABDE","ABCDABC") << endl;
cout << sunday("abcdefd", "bcd") << endl;
cout << sunday("abcdefd", "fd") << endl;
cout << sunday("aopa", "i") << endl;
cout << sunday("aosdddqweewqeiopasdjijndaihsdnaknldstartpa", "start") << endl;
return 1;
}
显示结果:(位置从0开始计算)