字符串匹配算法4:AC算法(2)代码实现

1. 说明

AC算法理解请看上个博客
字符串匹配算法4:AC算法(1)理解
https://blog.csdn.net/lqy971966/article/details/106353815

2. 代码实现(c语言)

#include    <stdio.h>
#include    <stdlib.h>
#include    <string.h>

#define KEYWORD_LEN 50
#define STR_LEN 1024
#define SUB_NODE_NUM 32
struct node
{
	struct node *fail; //失败指针
	struct node *next[SUB_NODE_NUM];//一个节点拥有的子节点
	int count; //是否为该单词最后一个点;1表示是最后一个点,0表示初始化,-1表示已经统计过
};

typedef struct node Node;
Node 	*q[STR_LEN];//关键词每行50个词,共10000行
char    keyword[][KEYWORD_LEN]={"she","her","his","he"};;//关键词
char    str[STR_LEN]="hisshers";//字符串
int        head, tail;//队列的头、尾指针

/*插入节点到字典树中*/
void insert(char *str,Node *root)
{
	Node *p = root;
	int i = 0, index;
	while(str[i])
	{
		index = str[i] - 'a';
		if (p->next[index] == NULL)
		{
			Node *newnode;
			int j;
			newnode = (Node *)malloc(sizeof(Node));            
			for (j = 0; j < SUB_NODE_NUM; j++)
				newnode->next[j] = 0;
			newnode->count = 0;
			p->next[index] = newnode;
		} /*如果不存在那个节点,首先得创建节点*/
		p = p->next[index];
		i++;
	}
	p->count = 1;//表示此节点为最后一个词
}

/*失败指针的建立*/
void build_fail(Node *root)
{
	int i;
	root->fail = NULL;/*让root的失败指针指向NULL,作为一种条件判断*/
	q[head++] = root;
	while (head != tail)/*当遍历完所有的节点后,head==tail*/
	{
		Node *temp = q[tail++];/*首先让指针指向root*/
		Node *p = NULL;
		for (i=0; i < SUB_NODE_NUM; i++)
		{
			if (temp->next[i] != NULL)/*找到存在的节点,用的是遍历的方法*/
			{
				if (temp == root)
				{
					temp->next[i]->fail = root;/*root所有下一级节点的失败指针全部指向root*/
				}
				else
				{
					p = temp->fail;/*找到失配点父节点的失败指针,其父节点的字符与该失败指针指向字符相等*/
					while (p != NULL)
					{
						if (p->next[i] != NULL)/*如果p->next[i]有节点,在p->next[i]就是temp->next[i]失败指针位置*/
						{
							temp->next[i]->fail = p->next[i];
							break;
						}
						p = p->fail;/*如果上一个if不成立,则继续向上查找*/
					}
					if (p == NULL)
					{
						temp->next[i]->fail = root;/*如果没有找到,那么将失败指针指向root*/
					}
				}
				q[head++] = temp->next[i];
			}
		}
	}
}

int query(Node *root, char *str)
{
	int cnt = 0, i = 0, index;
	Node *p = root;/*从root开始匹配*/
	while (str[i])
	{
		index = str[i] - 'a';
		while (p->next[index] == NULL && p != root)
			p = p->fail;
		p = p->next[index];
		if (p == NULL)
			p = root;/*没有找到匹配点,则从root出开始匹配*/
		Node *temp = p;
		while (temp != root && temp->count != -1)
		{
			cnt+=temp->count;
			temp->count = -1;
			temp = temp ->fail;
		}//统计匹配到的关键字
		i++;
	}
	return cnt;
}

int main()
{
	int n, t, i;
	//scanf("%d",&t);
	t=1;
	int k=0;
	while (t--)
	{
		head = tail = 0;
		Node *root = (Node *)malloc(sizeof(Node));        
		for (i = 0; i < SUB_NODE_NUM; i++)
			root->next[i] = 0;
		root->count = 0;
		//scanf("%d",&n);
		n=4;
		while (n--)
		{            
			printf("%s\n",keyword[k]);
			insert(keyword[k],root);//根据keyword建立字典树
			k++;
		}
		build_fail(root);//建立失败指针
		
		printf("%s\n", str);
		printf("%d\n", query(root,str));//根据输入字串查找关键字出现次数
	}
	return 0;
}

结果:
she
her
his
he
hisshers
4

https://www.cnblogs.com/liuqing/archive/2011/07/15/2107510.html
https://blog.csdn.net/suyouli/article/details/71077831

3. 涉及的数学概念

3.1 节点的出度

https://ww2.mathworks.cn/help/matlab/ref/digraph.outdegree.html

3.2 数组的度

边的数组:从这个节点出发, 可以有多少种出路

题目:给定一个非空且只包含非负数的整数数组 nums, 数组的度的定义是指数组里任一元素出现频数的最大值。
你的任务是找到与 nums 拥有相同大小的度的最短连续子数组,返回其长度。

示例 1: 输入: [1, 2, 2, 3, 1] 输出: 2
解释: 输入数组的度是2,因为元素1和2的出现频数最大,均为2.连续子数组里面拥有相同度的有如下所示:
[1, 2, 2, 3, 1], [1, 2, 2, 3], [2, 2, 3, 1], [1, 2, 2], [2, 2, 3], [2, 2] 最短连续子数组[2, 2]的长度为2,所以返回2.

示例 2: 输入: [1,2,2,3,1,4,2] 输出: 6

3.3 动态数组/出度数组能容量的最大数目

参考

https://www.snort.org/
https://blog.csdn.net/jiayanhui2877/article/details/4480244
http://www.voidcn.com/article/p-hlagacpx-bqk.html

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值