BM算法原理详解

程序员小橙

已于 2023-08-08 11:01:02 修改

阅读量139

点赞数

文章标签： java 前端 linux

于 2023-08-08 09:57:22 首次发布

本文链接：https://blog.csdn.net/m0_64363449/article/details/132160231

版权

单模式串匹配算法中BM（Boyer-Moore）算法算是很难理解的算法了，不过性能高效，据说比KMP算法性能提升3到4倍，suricata里面的单模式匹配就是用这种算法，所以有必要学习下，再把suricata的这部分代码过一下还是不错的。

摘要由CSDN通过智能技术生成

一、BM算法原理

BM算法是1975年发明的,它是一种后匹配算法，我们普通的字符串匹配算法是从左向右的，BM算法是从右向做的，即先判断模式串最后一个字符是否匹配，最后判断模式串第一个字符是否匹配。

原来我们在BF算法中，如果模式串和主串不匹配，则将主串或模式串后移一位继续匹配，BM算法根据模式串的特定规律，将后移一位的步子迈的更大一些，后移几位。
来看个图简单说明下，图来自《数据结构与算法之美》课程：

但是如果我们仔细观察，c字符在abd中不存在，那么abd可以直接移动到主串中c字符的后面再继续匹配：

这样移动的步数变大了，匹配起来肯定更快了。

BM算法根据模式串的特定规律，这里面的特定规律有两种，一种是好后缀规则，一种是坏字符规则，初次看到这种规则的介绍后，心里嘀咕着这性能会好吗，后面才发现经典的BM算法做了不少优化，所以性能高。
下面分别介绍下好后缀规则（good suffix shift）和坏字符规则（bad character rule）。

1.1 BM坏字符规则

首先在BM算法里面何谓好坏那，匹配上的，我们称为好，匹配不上的叫坏。
按照刚才说的，BM算法是倒着匹配字符串的，我们在倒着匹配字符串的过程中，当我们发现某个字符没法匹配的时候，我们把主串中这个没法匹配的字符称为坏字符。

我们发现在模式串中，字符c是不存在的，所以可以直接将模式字符串向后滑动3位继续匹配。

滑动后，我们继续匹配，发现主串中的字符a和模式串的d不匹配，这时候的情况和上一种不一样，因为主串中的坏字符a在模式串中存在，则后移动2位，让主串和模式串中的a对齐继续匹配。
那么每次后移多少位那，我们假设把匹配不到的坏字符的位置记作si，如果坏字符在模式串中存在，则坏字符在模式串中的位置记作xi，那么模式串后移为si-xi；如果坏字符在模式串中不存在，xi就为-1。
上两个图中，第一个图：si = 2，xi = -1 所以后移si-xi = 2+1 =3；第二个图：si = 2，xi= 0所以后移的位置为si-xi=2。
说明下如果坏字符在模式串中存在多个，那么应该选择最后一个匹配坏字符的位置作为xi，这样xi移动的步子就小，就不会遗漏应该匹配的情况。

单纯利用坏字符规则是有问题的，因为si可以为0，xi可能大于0，这样相减为负数，为此BM算法还增加了好后缀规则。

最低0.47元/天解锁文章

程序员小橙

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
BM算法原理详解

单模式串匹配算法中BM（Boyer-Moore）算法算是很难理解的算法了，不过性能高效，据说比KMP算法性能提升3到4倍，suricata里面的单模式匹配就是用这种算法，所以有必要学习下，再把suricata的这部分代码过一下还是不错的。
复制链接

扫一扫