多模式匹配算法-AC算法等

问题一:如果有一个关键词,然后让你在一段长文本中找出这些关键词,如何做?
问题二:如果有10K个关键词,然后让你在一段长文本中找出这些关键词,如何做?

如上问题一中,一段长文本中找一个关键词,那么就是单模式匹配。出了朴素算法(暴力算法)之外,还有一些经典的算法,例如KMP算法等。
问题二中,一段长文本中找N个关键词,那么就是多模式匹配,除了朴素算法外,也有一些经典的算法,例如AC算法、BM算法等。

这里主要讨论一下多模式匹配算法,也就是问题二。

模式匹配中,一般把原文本称为T(text,文本),关键词称为P(pattern,模式)。

1. 多模式匹配算法

1.1 AC算法

经典的AC算法,关键分为三个步骤:构成Trie树(生成goto表),构造失败指针(生成fail表),模式匹配(构造output表)。以下以模式串组为“say, she, shr, he, her”为例,做算法辅助说明。

构造Trie树

将每一个模式串逐字符添加进Trie树中。
Note:只考虑每一个词的跳转即可,从根起,合并相同的路径,直至出现同深度的不同字符为止。

结果如下图,红边框节点表示模式串结束节点:

Trie树

节点的类如下:

class Node
{
     Boolean isEnd;
     short length;
     Node fail;
     Node[] next = new Node[27];

     public Boolean IsEnd
     {
         get { return isEnd; }
         set { isEnd = value; }
     }
     public short Length   //计算column
     {
         get { return length; }
         set { length = value; }
     }
     public Node Fail
     {
         get { return fail; }
         set { fail = value; }
     }
     public Node[] Next
     {
         get { return next; }
         set { next = value; }
     }
}

构造Trie树代码(只考虑小写字母和空格,理论上,ASCII码字符都支持):

static void Insert(string keyword, Node root)
{
     Node p = root;
     int index;
     for (int i = 0; i < keyword.Length; i++)
     {
          if (keyword[i] == ' ')
          {
              index = keyword[i] - 6;
          }
          else
          {
              index = keyword[i] - 'a';
          }
          if (p.Next[index] == null)
          {
              p.Next[index] = new Node();
          }
          p = p.Next[index];
     }
     p.IsEnd = 
  • 5
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值