正则表达式匹配算法
总的来说,分为两种边 匹配边 和 episo边 。
状态转移是, 从 一个状态集合, 转移到 另一个 状态集合。
一个状态集合中的 存在 匹配边的所有 状态, 可以通向另状态集合, 该集合可以通过 episo边进行扩展,到此实现了状态的转移。
例如下边的例子 起始状态集合为{0,1,2,3,4,6} 12346是通过episo扩展得到的。
该集合中的 {2,4,6}存在匹配边, 若当前输入为A, 则{2,6}可以实现匹配,{2,6}转移到{3,7} ,而{3,7}再扩展(通过episo边)得到{2,3,4,7}.
由此 实现了 {0,1,2,3,4,6} 状态集 到 {2,3,4,7}状态集的转换。
正则表达式的匹配算法是基于NFA的,它的运行模式是这样的,有两种装换状态,黑色的和红色的,如下图。黑色的表示需要字符才能装换,如2状态,就需要接受一个字符A才能装到3,;红色状态代表可以自动进行装换。如3状态,可以自动转化到状态2和状态4。NFA运行的过程为,每一个状态都需要自动装换,直到不能进行自动装换。然后和进行黑色的装换,注意,每个可达的状态都需要进行处理。如从0状态开始,可以通过红色转换到达的状态为1,2,3,4,6,加上0,一共是6个状态。如果要匹配的第一个字符是A,2状态可以转化为3,然后3进行自动转换,到达2,和4,6状态接受A到达状态7,不能进行自动转化。所以第二次等待的状态为2,3,4,7。
NFA corresponding to the pattern ( ( A * B | A C ) D )
如何记录这个NFA,黑色的部分可以使用正则表达式本身来保存,而红色的部分可以使用有向图来表示。那么如何构造这个NFA,在《算法ÿ