正则式转化nfa 代码_从零实现正则表达式引擎：复杂的NFA

最新推荐文章于 2022-09-30 16:26:11 发布

刘观山

最新推荐文章于 2022-09-30 16:26:11 发布

阅读量1.1k

点赞数

文章标签：正则式转化nfa 代码

本文链接：https://blog.csdn.net/weixin_27028301/article/details/113412718

版权

完整代码：Regex in Python

上节回顾

上一节我们完成了简单的NFA构造，也就是四种基本形式，我们可以把它叫做一个term。

def term(pair_out):
    if lexer.match(Token.L):
        nfa_single_char(pair_out)
    elif lexer.match(Token.ANY):
        nfa_dot_char(pair_out)
    elif lexer.match(Token.CCL_START):
        nfa_set_nega_char(pair_out)

但是现在只能简单的识别四种简单的形式，并且只能一个识别识别，但是一个一般的正则表达式都是由多个简单的形式组合而成的。下面我们引入一个新东西来表达这种形式。

正则表达式的BNF范式

巴科斯范式（英语：Backus Normal Form，BNF）是一种用于表示上下文无关文法的语言。

看一个例子：

S –> AB
A –> aA | ε
B –> b | bB

其中S A B叫作非终结符 ，代表可以通过推导产生新的符号，之前在Token类里定义的也有这些非终结符；a b ε叫作终结符 ，表示其无法再通过推导产生新的符号了，ε则表示空；

上面的每一行就是一个产生式规则，也叫推导式，代表了一种非终结符的转移方式；

S就是开始符号。

只有终结符的符号串称为句子 （sentence） 。

比如通过这三个产生式，就可以断定bbb符合语法规则。

而正则表达式的BNF范式是：

group ::= ("(" expr ")")*
expr ::= factor_conn ("|" factor_conn)*
factor_conn ::= factor | factor factor*
factor ::= (term | term ("*" | "+" | "?"))*
term ::= char | "[" char "-" char "]" | .

term也就是我们之前实现的简单NFA，而这个BNF范式就是我们所要识别的正则语言的规则。而对于这种简单的语法规则，最简单的实现方式就是递归下降。这里其实也就是编译原理的内容，算是降低之后写编译器的学习曲线。

自顶向下分析法

在语法分析过程中一般有两种语法分析方法，自顶向下和自底向上，递归下降分析和LL(1)都属于是自顶向下的语法分析。这里我们只需要简单的递归下降。

自顶向下分析法的过程就像从第一个非终结符作为根节点开始根据产生式进行树的构建

最低0.47元/天解锁文章

刘观山

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
正则式转化nfa 代码_从零实现正则表达式引擎：复杂的NFA

完整代码：Regex in Python上节回顾上一节我们完成了简单的NFA构造，也就是四种基本形式，我们可以把它叫做一个term。def term(pair_out): if lexer.match(Token.L): nfa_single_char(pair_out) elif lexer.match(Token.ANY): nfa_dot_c...
复制链接

扫一扫