字符串匹配算法4:AC算法(2)代码实现
1. 说明
AC算法理解请看上个博客
字符串匹配算法4:AC算法(1)理解
https://blog.csdn.net/lqy971966/article/details/106353815
2. 代码实现(c语言)
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#define KEYWORD_LEN 50
#define STR_LEN 1024
#define SUB_NODE_NUM 32
struct node
{
struct node *fail; //失败指针
struct node *next[SUB_NODE_NUM];//一个节点拥有的子节点
int count; //是否为该单词最后一个点;1表示是最后一个点,0表示初始化,-1表示已经统计过
};
typedef struct node Node;
Node *q[STR_LEN];//关键词每行50个词,共10000行
char keyword[][KEYWORD_LEN]={"she","her","his","he"};;//关键词
char str[STR_LEN]="hisshers";//字符串
int head, tail;//队列的头、尾指针
/*插入节点到字典树中*/
void insert(char *str,Node *root)
{
Node *p = root;
int i = 0, index;
while(str[i])
{
index = str[i] - 'a';
if (p->next[index] == NULL)
{
Node *newnode;
int j;
newnode = (Node *)malloc(sizeof(Node));
for (j = 0; j < SUB_NODE_NUM; j++)
newnode->next[j] = 0;
newnode->count = 0;
p->next[index] = newnode;
} /*如果不存在那个节点,首先得创建节点*/
p = p->next[index];
i++;
}
p->count = 1;//表示此节点为最后一个词
}
/*失败指针的建立*/
void build_fail(Node *root)
{
int i;
root->fail = NULL;/*让root的失败指针指向NULL,作为一种条件判断*/
q[head++] = root;
while (head != tail)/*当遍历完所有的节点后,head==tail*/
{
Node *temp = q[tail++];/*首先让指针指向root*/
Node *p = NULL;
for (i=0; i < SUB_NODE_NUM; i++)
{
if (temp->next[i] != NULL)/*找到存在的节点,用的是遍历的方法*/
{
if (temp == root)
{
temp->next[i]->fail = root;/*root所有下一级节点的失败指针全部指向root*/
}
else
{
p = temp->fail;/*找到失配点父节点的失败指针,其父节点的字符与该失败指针指向字符相等*/
while (p != NULL)
{
if (p->next[i] != NULL)/*如果p->next[i]有节点,在p->next[i]就是temp->next[i]失败指针位置*/
{
temp->next[i]->fail = p->next[i];
break;
}
p = p->fail;/*如果上一个if不成立,则继续向上查找*/
}
if (p == NULL)
{
temp->next[i]->fail = root;/*如果没有找到,那么将失败指针指向root*/
}
}
q[head++] = temp->next[i];
}
}
}
}
int query(Node *root, char *str)
{
int cnt = 0, i = 0, index;
Node *p = root;/*从root开始匹配*/
while (str[i])
{
index = str[i] - 'a';
while (p->next[index] == NULL && p != root)
p = p->fail;
p = p->next[index];
if (p == NULL)
p = root;/*没有找到匹配点,则从root出开始匹配*/
Node *temp = p;
while (temp != root && temp->count != -1)
{
cnt+=temp->count;
temp->count = -1;
temp = temp ->fail;
}//统计匹配到的关键字
i++;
}
return cnt;
}
int main()
{
int n, t, i;
//scanf("%d",&t);
t=1;
int k=0;
while (t--)
{
head = tail = 0;
Node *root = (Node *)malloc(sizeof(Node));
for (i = 0; i < SUB_NODE_NUM; i++)
root->next[i] = 0;
root->count = 0;
//scanf("%d",&n);
n=4;
while (n--)
{
printf("%s\n",keyword[k]);
insert(keyword[k],root);//根据keyword建立字典树
k++;
}
build_fail(root);//建立失败指针
printf("%s\n", str);
printf("%d\n", query(root,str));//根据输入字串查找关键字出现次数
}
return 0;
}
结果:
she
her
his
he
hisshers
4
https://www.cnblogs.com/liuqing/archive/2011/07/15/2107510.html
https://blog.csdn.net/suyouli/article/details/71077831
3. 涉及的数学概念
3.1 节点的出度
https://ww2.mathworks.cn/help/matlab/ref/digraph.outdegree.html
3.2 数组的度
边的数组:从这个节点出发, 可以有多少种出路
题目:给定一个非空且只包含非负数的整数数组 nums, 数组的度的定义是指数组里任一元素出现频数的最大值。
你的任务是找到与 nums 拥有相同大小的度的最短连续子数组,返回其长度。
示例 1: 输入: [1, 2, 2, 3, 1] 输出: 2
解释: 输入数组的度是2,因为元素1和2的出现频数最大,均为2.连续子数组里面拥有相同度的有如下所示:
[1, 2, 2, 3, 1], [1, 2, 2, 3], [2, 2, 3, 1], [1, 2, 2], [2, 2, 3], [2, 2] 最短连续子数组[2, 2]的长度为2,所以返回2.
示例 2: 输入: [1,2,2,3,1,4,2] 输出: 6
3.3 动态数组/出度数组能容量的最大数目
参考
https://www.snort.org/
https://blog.csdn.net/jiayanhui2877/article/details/4480244
http://www.voidcn.com/article/p-hlagacpx-bqk.html