正则式转化nfa 代码_从零实现正则表达式引擎:复杂的NFA

完整代码 :Regex in Python

上节回顾

上一节我们完成了简单的NFA构造,也就是四种基本形式,我们可以把它叫做一个term

def term(pair_out):
    if lexer.match(Token.L):
        nfa_single_char(pair_out)
    elif lexer.match(Token.ANY):
        nfa_dot_char(pair_out)
    elif lexer.match(Token.CCL_START):
        nfa_set_nega_char(pair_out)

但是现在只能简单的识别四种简单的形式,并且只能一个识别识别,但是一个一般的正则表达式都是由多个简单的形式组合而成的。下面我们引入一个新东西来表达这种形式。

正则表达式的BNF范式

巴科斯范式(英语:Backus Normal Form,BNF)是一种用于表示上下文无关文法的语言。

看一个例子:

S –> AB
A –> aA | ε
B –> b | bB

其中S A B叫作非终结符 ,代表可以通过推导产生新的符号,之前在Token类里定义的也有这些非终结符;a b ε叫作终结符 ,表示其无法再通过推导产生新的符号了,ε则表示空;

上面的每一行就是一个产生式规则,也叫推导式,代表了一种非终结符的转移方式;

S就是开始符号。

只有终结符的符号串称为句子 (sentence)

比如通过这三个产生式,就可以断定bbb符合语法规则。

而正则表达式的BNF范式是:

group ::= ("(" expr ")")*
expr ::= factor_conn ("|" factor_conn)*
factor_conn ::= factor | factor factor*
factor ::= (term | term ("*" | "+" | "?"))*
term ::= char | "[" char "-" char "]" | .

term也就是我们之前实现的简单NFA,而这个BNF范式就是我们所要识别的正则语言的规则。而对于这种简单的语法规则,最简单的实现方式就是递归下降。这里其实也就是编译原理的内容,算是降低之后写编译器的学习曲线。

自顶向下分析法

在语法分析过程中一般有两种语法分析方法,自顶向下和自底向上,递归下降分析和LL(1)都属于是自顶向下的语法分析。这里我们只需要简单的递归下降。

自顶向下分析法的过程就像从第一个非终结符作为根节点开始根据产生式进行树的构建

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 正则表达式转换为NFA(非确定有限自动机)可以通过构造Thompson算法实现代码示例如下: ```python # 定义NFA状态和边的类 class NFAState: def __init__(self, label=None): self.label = label self.transitions = [] # 定义NFA类 class NFA: def __init__(self, start_state, accept_states): self.start_state = start_state self.accept_states = accept_states def add_transition(self, state1, input, state2): state1.transitions.append((input, state2)) # 正则表达式NFA的函数 def regex_to_nfa(regex): stack = [] for char in regex: if char == '*': # 闭包操作 nfa = stack.pop() accept_state = NFAState() nfa.add_transition(accept_state, None, nfa.start_state) nfa.add_transition(accept_state, None, accept_state) stack.append(NFA(accept_state, [accept_state])) elif char == '|': # 或操作 nfa2 = stack.pop() nfa1 = stack.pop() start_state = NFAState() accept_state = NFAState() start_state.transitions.append((None, nfa1.start_state)) start_state.transitions.append((None, nfa2.start_state)) nfa1.accept_states[0].transitions.append((None, accept_state)) nfa2.accept_states[0].transitions.append((None, accept_state)) stack.append(NFA(start_state, [accept_state])) elif char == '.': # 连接操作 nfa2 = stack.pop() nfa1 = stack.pop() nfa1.accept_states[0].transitions.append((None, nfa2.start_state)) stack.append(NFA(nfa1.start_state, nfa2.accept_states)) else: # 创建单个字符的NFA accept_state = NFAState() start_state = NFAState() start_state.transitions.append((char, accept_state)) stack.append(NFA(start_state, [accept_state])) return stack.pop() ``` NFA转换为DFA可以使用子集构造算法实现代码示例如下: ```python # 定义DFA状态和边的类 class DFAState: def __init__(self, label=None): self.label = label self.transitions = {} # 定义DFA类 class DFA: def __init__(self, start_state, accept_states): self.start_state = start_state self.accept_states = accept_states def add_transition(self, state1, input, state2): state1.transitions[input] = state2 # NFA转DFA的函数 def nfa_to_dfa(nfa): start_state = DFAState(nfa.start_state.label) dfa_states = [start_state] unmarked_states = [start_state] while unmarked_states: dfa_state = unmarked_states.pop(0) transitions = {} for nfa_state in get_nfa_states(dfa_state, nfa): for transition in nfa_state.transitions: input_symbol = transition[0] next_nfa_state = transition[1] if input_symbol not in transitions: transitions[input_symbol] = set() transitions[input_symbol].add(next_nfa_state) for input_symbol, next_state_states in transitions.items(): next_state_label = ",".join(sorted([n.label for n in next_state_states])) next_state = get_or_create_dfa_state(next_state_label, dfa_states) dfa_state.transitions[input_symbol] = next_state if next_state not in dfa_states: dfa_states.append(next_state) unmarked_states.append(next_state) accept_states = [s for s in dfa_states if nfa.accept_states[0].label in s.label.split(",")] return DFA(start_state, accept_states) # 获取NFA状态的ε闭包 def get_nfa_states(dfa_state, nfa): nfa_states = [] def get_nfa_states_recursive(nfa_state): nfa_states.append(nfa_state) for transition in nfa_state.transitions: input_symbol = transition[0] next_nfa_state = transition[1] if input_symbol is None and next_nfa_state not in nfa_states: get_nfa_states_recursive(next_nfa_state) for nfa_state_label in dfa_state.label.split(","): nfa_state = get_nfa_state_by_label(nfa_state_label, nfa) get_nfa_states_recursive(nfa_state) return nfa_states # 根据NFA状态标签获取NFA状态 def get_nfa_state_by_label(label, nfa): for state in nfa.accept_states: if state.label == label: return state if nfa.start_state.label == label: return nfa.start_state # 根据DFA状态标签获取DFA状态,如果不存在则创建 def get_or_create_dfa_state(label, dfa_states): for state in dfa_states: if state.label == label: return state return DFAState(label) ``` 以上就是将正则表达式转换为NFA,以及将NFA转换为DFA的代码示例。 ### 回答2: 正则表达式NFA主要包括两个步骤:正则表达式转后缀表达式和后缀表达式转NFA。 首先,将给定的正则表达式转换为后缀表达式。可以通过使用栈和运算符优先级来实现。遍历正则表达式的每个字符,如果是操作数,则直接输出到后缀表达式。如果是运算符,则根据优先级进行相应的操作,将栈中优先级大于或等于当前运算符的运算符输出到后缀表达式,再将当前运算符压入栈。当所有字符都被处理完后,将栈中剩余的运算符依次输出到后缀表达式中。 然后,根据后缀表达式构建对应的NFA。可以使用Thompson算法来实现此过程。首先,创建一个空的NFA栈。然后,遍历后缀表达式的每个字符。如果是操作符,如'a'、'b',则创建一个新的NFA,其中有两个状态,一个初始状态和一个接受状态,通过一条连接状态的边进行连接,并将该NFA压入NFA栈。如果是运算符,如'|'、'.'、'*',则从NFA栈中弹出对应的NFA,并根据运算符创建新的NFA,并将该NFA压入NFA栈。 最后,将得到的NFA转换为DFA。可以使用子集构造算法来实现此过程。首先,将NFA的初始状态作为DFA的初始状态,并计算该状态的ε-闭包。然后,将ε-闭包作为DFA的一个状态,如果该状态中包含NFA的接受状态,则将该状态标记为接受状态。接着,对于每个输入符号,计算该输入符号在当前状态下,通过ε-闭包能够到达的NFA状态,并将其作为DFA的一个新状态。重复以上步骤,直到所有的DFA状态都被生成。最终得到的DFA即为所求。 以上是正则表达式转换为NFA再转换为DFA的基本过程。可以根据具体的编程语言和数据结构进行具体的实现。 ### 回答3: 正则表达式NFA(Nondeterministic Finite Automaton)的过程可以通过使用Thompson算法来实现,以下是一个简单的Python代码示例: ```python class State: def __init__(self, label=None): self.label = label self.edges = [] class NFA: def __init__(self, start=None, end=None): self.start = start self.end = end def regex_to_nfa(regex): stack = [] for char in regex: if char == '.': nfa2 = stack.pop() nfa1 = stack.pop() nfa1.end.edges.append(nfa2.start) stack.append(NFA(nfa1.start, nfa2.end)) elif char == '|': nfa2 = stack.pop() nfa1 = stack.pop() start = State() start.edges.extend([nfa1.start, nfa2.start]) end = State() nfa1.end.edges.append(end) nfa2.end.edges.append(end) stack.append(NFA(start, end)) elif char == '*': nfa = stack.pop() start = State() end = State() start.edges.extend([nfa.start, end]) nfa.end.edges.extend([nfa.start, end]) stack.append(NFA(start, end)) else: start = State() end = State() start.edges.append(end) stack.append(NFA(start, end)) return stack.pop() def nfa_to_dfa(nfa): dfa_start = State() dfa = NFA(dfa_start) dfa_states = [dfa_start] state_map = {} state_queue = [dfa_start] while len(state_queue) > 0: current_state = state_queue.pop(0) state_map[current_state] = {} for char in nfa.alphabet: new_state = State() state_map[current_state][char] = new_state for nfa_state in current_state: if nfa_state.label == char: new_state.append(nfa_state.edges) for edge in nfa_state.edges: if edge not in dfa_states: state_queue.append(edge) dfa_states.append(edge) return dfa regex = "(ab)*c" nfa = regex_to_nfa(regex) dfa = nfa_to_dfa(nfa) ``` 以上代码实现了将正则表达式转化NFA,以及将NFA转化为DFA的过程。在这个示例中,我们使用Thompson算法将正则表达式转换为NFA,并使用子集构造法将NFA转换为DFA。最终得到的DFA可以用于模式匹配和字符串匹配等应用。该示例代码仅为简化版本,实际实现中可能会有更多的细节和优化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值