蔡良伟等人在提出了基于遗传算法的表达式分组 REG_NAGA 算法, 该算法优化了原有的 Becchi 分组算法,获得了较好的分组效果
一、Becchi 分组算法
Becchi 算法由 Becchi 等人提出的,其算法的分组策略为不断循环二分待分组的特征模式集合,直到完成正则表达式分组。Becchi 算法的分组过程如下:
(1) 将未分组正则表达式集合的第一条正则表达式加入到当前组。
(2) 按顺序将当前未分组表达式集合中每一条正则表达式加入到当前分组中,
并计算是否满足公式:
#DFA(current_group)< σ
其中σ
σ= η{#DFA(currentgroupbefore)+#DFA(Ri)}
而η为阈值系数。如果满足公式,则加入到当前分组中。
(3) 如果未分组的正则表达式集合为空,则输出分组情况并结束算法。
二、REG-NAGA 算法
由 Becchi 算法的算法过程可知,Becchi 算法的分组结果与正则表达式的输入 顺序有关,特征模式集中不同的正则表达式排序方式会对算法的输出结果产生严 重影响。REG-NAGA 算法通过使用遗传算法多次调整正则表达式的排列顺序,来 优化 Becchi 算法的分组结果。
REG-NAGA 算法将正则表达式的排列顺序当成染色体,在染色体中采取如图 所示的三种操作,包括交叉,互换变异与逆序变异来改变正则表达式的排列顺 序,同时在每一次进行 Becchi 算法分组后,留下分组结果较好的正则表达式排列, 淘汰不好的正则表达式排列顺序。在经历多次选择并且正则表达式排列顺序稳定 之后,使用 Becchi 算法进行分组并输出最后的分组结果。REG-NAGA 算法通过使 用遗传算法对 Becchi 算法的输入进行优化,最后得到足够优秀且收敛的局部最优 解。