AC自动机

AC自动机主要解决的问题:多模式匹配(KMP则属于单模式匹配),n个单词在m个字符的文章中,出现过多少次。

主要分三步:构建trie树、构建失败指针、寻找匹配个数

Trie树:又称字典树、单词查找树,是一种树形结构,用于保存大量的字符串。它的优点是:利用字符串的公共前缀来节约存储空间。

具体参见:http://www.cppblog.com/abilitytao/archive/2009/04/21/80598.aspx

失败指针:作用于KMP的next[]类似,但存在实际不同,对于字符串s[nMax],k = next[i],并不要求s[i] = s[k],只需要前面k - 1个字母相同即可。而失败节点既要求两个节点相同,也要求前面的k - 1个节点相同。这是与next作用的区别。

需要用到的数据结构:

struct Node
{
	Node *fail;
	Node *next[Max];
	int count;
	Node()
	{
		fail = NULL;
		memset(next, 0, sizeof(next));
		count = 0;
	}
}*queue[nMax];
char keyWord[mMax];
char str[nMax];
int ans;


算法模板:

void insert(char s[], Node *root)
//构建tire树,这里没什么可解释,一次历遍即可
{
	Node *p = root;
	for(int i = 0; s[i]; ++ i)
	{
		int index = s[i] - 'a';
		if(p->next[index] == NULL) p->next[index] = new Node();
		p = p->next[index];
	}
	p ->count ++;
}

void buildFailNode(Node *root)
//构建失败指针,队列实现
{
	int front = 0,
		rear = 0;
	queue[front ++] = root;
	while(rear < front)
	{
		Node *p = queue[rear ++];
		for(int i = 0; i < Max; ++ i)
		{
			if(p->next[i])
			{
				Node *fa = p->fail;
				while(fa != NULL)//不断寻找p的失败节点直到发现fa子节点中也存在i节点
				{
					if(fa->next[i])
					{
						p->next[i]->fail = fa->next[i];
						break;
					}
					fa = fa->fail;
				}
				if(fa == NULL) p->next[i]->fail = root;
				queue[front ++] = p->next[i];
			}
		}
	}
}

void match(Node *root)
//寻找一串字符中,共有多少能与关键字匹配。
{
	Node *p = root;
	for(int i = 0; str[i]; ++ i)
	{
		int index = str[i] - 'a';
		while(p->next[index] == NULL && p != root)
			p = p->fail;
		p = p->next[index];
		p = (p == NULL) ? root : p;//为了配合while()中p != root的应用
		Node *_p = p;//这里需要将p另外复制给_p,p的值不能做改动,p此时存储的是第一个匹配的节点
		while(_p != root && _p->count != -1)
		//这里使用while循环即可将str[i]位置所有匹配全部找出来
		{
			ans += _p->count;
			_p->count = -1;
			_p = _p ->fail;
		}
	}
}

详细参见,图文并茂: http://www.cppblog.com/mythit/archive/2009/04/21/80633.html


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python AC自动机是一个用于字符串匹配的算法,它可以高效地在一段文本中查找多个预定义的模式。它的实现可以使用多种库,其中包括ac自动机python和ahocorasick-python。 ac自动机python是一个对标准的ac自动机算法进行了完善和优化的实现,适用于主流的Python发行版,包括Python2和Python3。它提供了更准确的结果,并且可以通过pip进行安装,具体的安装方法可以参考官方文档或者使用pip install命令进行安装。 ahocorasick-python是另一个实现AC自动机的库,它也可以用于Python2和Python3。你可以通过官方网站或者GitHub源码获取更多关于该库的信息和安装指南。 对于AC自动机的使用,一个常见的例子是在一段包含m个字符的文章中查找n个单词出现的次数。要了解AC自动机,需要有关于模式树(字典树)Trie和KMP模式匹配算法的基础知识。AC自动机的算法包括三个步骤:构造一棵Trie树,构造失败指针和模式匹配过程。在构造好AC自动机后,可以使用它来快速地在文本中查找预定义的模式,并统计它们的出现次数。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [ahocorasick-python:AC自动机python的实现,并进行了优化。 主要修复了 查询不准确的问题](https://download.csdn.net/download/weixin_42122986/18825869)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [Python实现多模匹配——AC自动机](https://blog.csdn.net/zichen_ziqi/article/details/104246446)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值