文章目录
一 正则表达式匹配原理
1.1 正则表达式
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。例如,筛选所有以包含连续三个0的0,1字符串的正则表达式为:
( 0 ∪ 1 ) ∗ 000 ( 0 ∪ 1 ) ∗ (0\cup 1)^*000(0\cup 1)^* (0∪1)∗000(0∪1)∗
1.2 DFA
DFA(Deterministic Finite State),确定有穷自动机,从一个状态通过一系列的事件转换到另一个状态。它的形式定义如下:
有穷自动机是一个5元组 ( Q , E , δ , q 0 , F ) (Q,E, \delta ,q_0,F) (Q,E,δ,q0,F),其中:
- Q Q Q是一个有穷集合,叫做状态集。
- E E E是一个有穷集合,叫做字母集。
- δ \delta δ:$Q\times \Sigma \rightarrow Q $是转移函数。
- q 0 ∈ Q q_0 \in Q q0∈Q是起始状态。
- F ⊆ Q F \subseteq Q F⊆Q是接受状态集。
举个例子,有一个有穷自动机 G = ( Q , E , δ , q 0 , F ) G=(Q,E, \delta ,q_0,F) G=(Q,E,δ,q0,F),其中:
Q = { q 1 , q 2 , q 3 , q 4 } Q = \{q_1,q_2,q_3,q_4\} Q={ q1,q2,q3,q4}。 表示该自动机共有4个状态
E = { 0 , 1 } E=\{0,1\} E={ 0,1};表示该自动机只接收0,1字母
δ \delta δ:
q 0 = q 1 q_0=q_1 <