扩展AC算法的正则特性

最新推荐文章于 2022-04-07 08:25:59 发布

sealyao

最新推荐文章于 2022-04-07 08:25:59 发布

阅读量3.2k

点赞数

分类专栏：算法文章标签：扩展算法正则表达式 search struct null

本文链接：https://blog.csdn.net/sealyao/article/details/5258830

版权

算法专栏收录该内容

11 篇文章 1 订阅

订阅专栏

可以在AC算法上扩展的正则特性包括：“.*”，“.”，“^”，“$”等。

AC算法的查找流程：

typedef struct _acsm_pattern { unsigned char *patstr; //pattern 字符串 unsigned int iid; //pattern id号 } ACSM_PATTERN; typedef struct { int NextState[ ALPHABET_SIZE ]; //状态跳转表 int FailState; //构造DFA状态机时使用到的变量，在DFA构造成功之后就没用了 ACSM_PATTERN *MatchList; //当运行到此状态时，可能匹配了哪一个pattern }ACSM_STATETABLE; typedef struct { int acsmNumStates; //状态数 int numPatterns; //pattern数 ACSM_PATTERN * acsmPatterns; // pattern数组 ACSM_STATETABLE * acsmStateTable; // 状态数组 }ACSM_STRUCT;

AC算法的查找流程：

再经过一系列有些绕的过程之后（不是扩展的重点，跳过），整个ACSM_STRUCT结构已经建立完毕。开始查找。查找伪代码：

int state = 0； char * p = (char *) &start_of_the_buf[0]; while(p != end_of_the_buf) { state = StateTable[state].NextState[*p]; for( mlist = StateTable[state].MatchList ; mlist!=NULL ; mlist=mlist->next ) { printf(“pattern %d matched at pos %d”, mlist->iid, p – strlen(mlist-> patstr) + 1 - start_of_the_buf); } p++; }

总结一下：

1、从状态0开始进行状态跳转。

2、状态跳转表在search操作之前已经建立好了，在状态N下，输入字符c，跳转到状态M，按照状态跳转表来就好了。

3、状态机到达哪些状态时发生匹配，匹配了哪些pattern，这也是之前就算出来了的。

4、整个search操作，就是把search的buf作为输入，在预先设计好的状态机上进行跳转，每到一个新的状态，就看一下在这个状态下有没有发生匹配，如果有就打印，如果没有就继续，直到search到buf末尾。

对“.*”的扩展：

基本思路是把包含了.*等正则特性正则表达式（ab.*cd）分成多个固定串（ab和cd），当固定串按照顺序或者位置依次发生匹配时，则认为整个正则表达式发生匹配了。这里的ab和cd在查找过程中，是按照两个独立的字符串进行查找的，但是和完全独立的两个字符串不同，ab和cd又同属于一个正则表达式ab.*cd，应该具备某种特定的联系。

这里使用pattern的iid来表示这种联系。首先ab和cd各有一个对应的ACSM_PATTERN结构，分别进行匹配。ab的iid是0x21??；cd的iid是0x22??，这里要求iid的低16bit ab和cd相同，而又和其他的pattern区分开。而iid的16~23bit表示ab、cd在正则表达式中出现的顺序（ab是1，cd是2），iid的24~31bit（0x2）表示正则表达式被拆分成了几个固定串。

在匹配过程中要记录之前发生匹配的pattern的iid，如果低16bit相同并且高16bit不为0，则要求pattern iid的16~23bit要严格递增，否则就是一个无效的匹配。当到达buf末尾时，比较pattern iid的16~23bit和24~31bit，只有两者相等的时候才认为整个正则表达式（ab.*cd）发生匹配了。

这里还有个问题，比如正则表达式abc.*bcd，而buf=”abcd”，使用上述方法你会惊奇的发现匹配发生了，而实际上没有发生匹配，原因是”abcd”可以分别匹配”abc”和”bcd”，并且先匹配”abc”，后匹配”bcd”，但是匹配的位置发生了重叠。所以还需要引入一个数组，记录匹配发生的结束位置。如abc发生匹配时，记录匹配发生的结束位置是3，而bcd发生匹配时，发现bcd发生匹配的起始位置是2，发生了重叠，也认为这是一个无效匹配。