问题一:如果有一个关键词,然后让你在一段长文本中找出这些关键词,如何做?
问题二:如果有10K个关键词,然后让你在一段长文本中找出这些关键词,如何做?
如上问题一中,一段长文本中找一个关键词,那么就是单模式匹配。出了朴素算法(暴力算法)之外,还有一些经典的算法,例如KMP算法等。
问题二中,一段长文本中找N个关键词,那么就是多模式匹配,除了朴素算法外,也有一些经典的算法,例如AC算法、BM算法等。
这里主要讨论一下多模式匹配算法,也就是问题二。
模式匹配中,一般把原文本称为T(text,文本),关键词称为P(pattern,模式)。
1. 多模式匹配算法
1.1 AC算法
经典的AC算法,关键分为三个步骤:构成Trie树(生成goto表),构造失败指针(生成fail表),模式匹配(构造output表)。以下以模式串组为“say, she, shr, he, her”为例,做算法辅助说明。
构造Trie树
将每一个模式串逐字符添加进Trie树中。
Note:只考虑每一个词的跳转即可,从根起,合并相同的路径,直至出现同深度的不同字符为止。
结果如下图,红边框节点表示模式串结束节点:
节点的类如下:
class Node
{
Boolean isEnd;
short length;
Node fail;
Node[] next = new Node[27];
public Boolean IsEnd
{
get { return isEnd; }
set { isEnd = value; }
}
public short Length //计算column
{
get { return length; }
set { length = value; }
}
public Node Fail
{
get { return fail; }
set { fail = value; }
}
public Node[] Next
{
get { return next; }
set { next = value; }
}
}
构造Trie树代码(只考虑小写字母和空格,理论上,ASCII码字符都支持):
static void Insert(string keyword, Node root)
{
Node p = root;
int index;
for (int i = 0; i < keyword.Length; i++)
{
if (keyword[i] == ' ')
{
index = keyword[i] - 6;
}
else
{
index = keyword[i] - 'a';
}
if (p.Next[index] == null)
{
p.Next[index] = new Node();
}
p = p.Next[index];
}
p.IsEnd =