关于BM算法的一些思考

最新推荐文章于 2024-07-15 14:16:22 发布

chong232

最新推荐文章于 2024-07-15 14:16:22 发布

阅读量6.9k

点赞数 1

分类专栏： C++ 文章标签：算法 algorithm 优化 null 测试 string

本文链接：https://blog.csdn.net/chong232/article/details/5806968

版权

C++ 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

1. 什么是BM算法？

见 A Fast String Searching Algorithm, with R.S. Boyer. Communications of the Association for Computing Machinery,

是Boyer于1977年发表的一个算法，用于字符串匹配。

2. 与KMP算法相比？

与经典的KMP算法相比，BM算法在很多情况下效率更高，它有两个特点：

一是它在遍历正文时的平均比较次数与pattern的长度反比，这一点很历害。

二是它在处理大字母表时候性能更佳。

从表面上看KMP算法号称O(m+n)的时间复杂度，BM最坏为O(m*n)，但实际效率反而是BM更高（见参考3），这是由于实际情况时经常能达到BM的平均效率。所以在内核的iptables匹配时，选择bm算法的时候居多！

3. 核心

BM算法的核心是两个原则，这在下面的参考2中可以找到，具体原理它已经说的很清楚了。

一。坏字符原则

i. 如果字符x在模式P中没有出现，那么从字符x开始的m个文本显然不可能与P匹配成功，直接全部跳过该区域即可。

ii. 如果x在模式P中出现，则以该字符进行对齐。

二。好后缀原则

i. 如果在P中位置t处已匹配部分P'在P中的某位置t'也出现，且位置t'的前一个字符与位置t的前一个字符不相同，则将P右移使t'对应t方才的所在的位置。

ii. 如果在P中任何位置已匹配部分P'都没有再出现，则找到与P'的后缀P''相同的P的最长前缀x，向右移动P，使x对应方才P''后缀所在的位置。

4. 个人的一点理解

需要说明的是原则一是核心，原则二是对原则一的补充优化；换句话说，仅仅利用原则一就能在正文中完成匹配，但如果结合原则二可以很好地优化某些情况，从而提高效率！

还有一点，如果只使用原则一，那么需要注意一个地方。BM算法的原论文里也忽视了这一点，比如下面这种情况：

按原论文的意思，这个时候ｃ与Ｘ（蓝绿色部分）产生了坏字符，于是根据坏字符原则，下一次对齐的地方是"patter中的最右边的X"与text中的当前坏字符X, 那么这就产生了回退－－pattern相对于text向左移动。要消除这个bug，就要在应用原则一的时候判断，不能让pattern左移！即一旦出现图中这种情况：

当前坏字符在pattern虽然有匹配，但由于匹配的位置在当前坏字符位置右边，于是相当于没有匹配，同样视为坏字符原则的第 i 种情况

。

之所以原论文会有这种疏忽，我觉得是因为原文的意思是在两个原则结合进行的前提下，上面提到的这种疏忽完全可以被原则二－－好后缀原则会弥补这个bug ! 但严谨地讲来，这确实是一个不对的地方！

5. SNORT2.7.0中BM算法的一点疑问

在参考2中提到了SNORT2.7.0的算法，但个人觉得原文中的MakeSkip（）函数有些问题：

原文中的：

//初始化坏字符表，256个单元全部初始化为pLen for(i = 0; i < 256; i++) { *(skip+i) = pLen; }

应该改为：

//初始化坏字符表，256个单元全部初始化为pLen for(i = 0; i < 256; i++) { *(skip+i) = pLen＋1; }

否则，在这面这种情况下，匹配虽然能成功，但会多匹配一次，，，可能是作者一个小疏忽：

6. 最后附上自己修改过的源代码，同时还有一些自己测试用的打印代码，主要是为了观察方便

#include <stdio.h> #include <stdlib.h> #include <string.h> /* 函数：int* MakeSkip(char *, int) 目的：根据坏字符规则做预处理，建立一张坏字符表表的长度由字符表规模而定，如果只有字母就是26 如果是字母加数字就是26+10 如果果unicode??? 参数： ptrn => 模式串P PLen => 模式串P长度返回： int* - 坏字符表 */ int* MakeSkip(char *ptrn, int pLen) { int i; int len = pLen; char* p = ptrn; //为建立坏字符表，申请256个int的空间 /*PS:这里字符表为256*/ int *skip = (int*)malloc(256*sizeof(int)); if(skip == NULL) { fprintf(stderr, "malloc failed!"); return 0; } //初始化坏字符表，256个单元全部初始化为pLen for(i = 0; i < 256; i++) { *(skip+i) = pLen+1; } //赋值，从左到右遍历pattern，这样如果一个字符出现两次，后面的覆盖前面的！ //不在模式串中出现的字符就不用再赋值了，它们使用默认值pLen!!! while(pLen != 0) { *(skip+(unsigned char)*ptrn++) = pLen--; } for(i=0; i<len; i++) fprintf(stderr, "%d/t", *(skip+p[i])); puts(""); return skip; } /* 函数：int* MakeShift(char *, int) 目的：根据好后缀规则做预处理，建立一张好后缀表参数： ptrn => 模式串P PLen => 模式串P长度返回： int* - 好后缀表 */ int* MakeShift(char* ptrn,int pLen) { //为好后缀表申请pLen个int的空间 //这样，第1个位置放长度为1的后 int *shift = (int*)malloc(pLen*sizeof(int)); int *sptr = shift + pLen - 1;//方便给好后缀表进行赋值的指针 char *pptr = ptrn + pLen - 1;//记录好后缀表边界位置的指针 char c; int i; if(shift == NULL) { fprintf(stderr,"malloc failed!"); return 0; } c = *(ptrn + pLen - 1);//保存模式串中最后一个字符，因为要反复用到它 *sptr = 1;//以最后一个字符为边界时，确定移动1的距离 pptr--;//边界移动到倒数第二个字符（这句是我自己加上去的，因为我总觉得不加上去会有BUG，大家试试“abcdd”的情况，即末尾两位重复的情况） while(sptr-- != shift)//该最外层循环完成给好后缀表中每一个单元进行赋值的工作 { char *p1 = ptrn + pLen - 2, *p2,*p3; //该do...while循环完成以当前pptr所指的字符为边界时，要移动的距离 do{ while(p1 >= ptrn && *p1-- != c);//该空循环，寻找与最后一个字符c匹配的字符所指向的位置 p2 = ptrn + pLen - 2; p3 = p1; while(p3 >= ptrn && *p3-- == *p2-- && p2 >= pptr);//该空循环，判断在边界内字符匹配到了什么位置 }while(p3 >= ptrn && p2 >= pptr); *sptr = shift + pLen - sptr + p2 - p3;//保存好后缀表中，以pptr所在字符为边界时，要移动的位置 /* PS:在这里我要声明一句，*sptr = （shift + pLen - sptr） + p2 - p3; 大家看被我用括号括起来的部分，如果只需要计算字符串移动的距离，那么括号中的那部分是不需要的。因为在字符串自左向右做匹配的时候，指标是一直向左移的，这里*sptr保存的内容，实际是指标要移动距离，而不是字符串移动的距离。我想SNORT是出于性能上的考虑，才这么做的。 */ pptr--;//边界继续向前移动 } sptr = shift; for(i=0; i<pLen; i++) fprintf(stderr, "%d/t", *(sptr+i)); puts(""); return shift; } /* 函数：int* BMSearch(char *, int , char *, int, int *, int *) 目的：判断文本串T中是否包含模式串P 参数： buf => 文本串T blen => 文本串T长度 ptrn => 模式串P PLen => 模式串P长度 skip => 坏字符表 shift => 好后缀表返回： int - 1表示成功（文本串包含模式串），0表示失败（文本串不包含模式串）。 */ int BMSearch(char *buf, int blen, char *ptrn, int plen, int *skip, int *shift) { int b_idx = plen; if (plen == 0) return 1; while (b_idx <= blen)//计算字符串是否匹配到了尽头 { int p_idx = plen, skip_stride, shift_stride; printf("b_idx:%d/t", b_idx); int i=0; while (buf[--b_idx] == ptrn[--p_idx])//开始匹配 { i++; if (b_idx < 0) return 0; if (p_idx == 0) { fprintf(stderr, "match at %d!",b_idx); return 1; } } printf("i:%d/tbad:%c/n",i,buf[b_idx]); skip_stride = skip[(unsigned char)buf[b_idx]];//根据坏字符规则计算跳跃的距离 //skip_stride = -1; shift_stride = shift[p_idx];//根据好后缀规则计算跳跃的距离 //shift_stride = -1; //用于单独测试原则一 printf("b_idx:%d 1:%d 2:%d/n", b_idx, skip_stride, shift_stride); b_idx += (skip_stride > shift_stride) ? skip_stride : shift_stride;//取大者 } return 0; } int main() { char* buf = "----abcd"; char* ptrn ="abcd"; int* skip=NULL; int* shift=NULL; int ret = -1; fprintf(stderr, "plen=%d!/n", strlen(ptrn)); skip = MakeSkip(ptrn, strlen(ptrn)); shift = MakeShift(ptrn, strlen(ptrn)); ret = BMSearch(buf, strlen(buf), ptrn, strlen(ptrn), skip, shift); }

参考：

1. BM算法的原论文

http://userweb.cs.utexas.edu/users/moore/publications/fstrpos.pdf

2.网上资料虽多，准确很少，这是个不错的原创：

原理说明：

http://www.javaeye.com/topic/352954

算法的C代码（个人觉得有个疑点，在上面5中有说明）：

http://ouyangjia7.javaeye.com/blog/353137

3.关于BM算法的一点改进：

http://www.lw23.com/pdf_f6526ded-c90c-48cf-a13b-79e003b0613e/lunwen.pdf