正则表达式
概念:正则表达式(英语:Regular Expression,在代码中常简写为regex、regexp或RE),又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法,是计算机将科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些匹配某个模式的文本。
理论:
正则表达式可以用形式化语言理论的方式来表达。正则表达式由常量和算子组成,它们分别表示字符串的集合和在这些集合上的运算。给定有限字母表Σ定义了下列常量:
- 空集{\displaystyle \varnothing }表示集合{\displaystyle \varnothing }。
- 空串{\displaystyle \varepsilon }表示集合{\displaystyle \{\varepsilon \}}。
- 文字字符在{\displaystyle \Sigma }中的{\displaystyle a}表示集合{\displaystyle \{a\}}。
定义了下列运算:
- 串接{\displaystyle RS}表示集合{\displaystyle \{\alpha \beta \mid \alpha \in R,\beta \in S\}}。例如:{\displaystyle \{ab,c\}\{d,ef\}=\{abd,abef,cd,cef\}}。
- 选择{\displaystyle R|S}表示{\displaystyle R}和{\displaystyle S}的并集。例如:{\displaystyle \{ab,c\}|\{ab,d,ef\}=\{ab,c,d,ef\}}。
- Kleene星号{\displaystyle R^{*}}表示包含{\displaystyle \varepsilon }并且闭合在字符串串接下的{\displaystyle R}的最小子集。这是可以通过{\displaystyle R}中的零或多个字符串的串接得到所有字符串的集合。例如:{\displaystyle \{ab,c\}^{*}=\{\varepsilon ,ab,c,abab,abc,cab,cc,ababab,\cdots \}}。