深入入门正则表达式（java） - 匹配原理 - 1 - 引擎分类与普适原则-CSDN博客

本文链接：https://blog.csdn.net/su1216/article/details/8701967

本节第一部分主要介绍正则引擎的分类，由于java属于NFA，所以只重点介绍此类。其余类型简要或不做介绍。

分类的内容全部来自《精通正则表达式》v3

引擎类型	程序
DFA	awk（大多数版本）、egrep（大多数版本）、flex、lex、MySQL、Procmail
传统NFA	GNU Emacs、Java、grep（大多数版本）、less、more、.NET语言、PCRE library、Perl、PHP（所有三套正则库）、Python、Ruby、sed（大多数版本）、vi
POSIX NFA	mawk、Mortice Kern Systems'utilities、GNU Emacs（明确指定时使用）
DFA/NFA混合	GNU awk、GNU grep/egrep、Tcl

NFA（非确定型有穷自动机）：表达式主导

正则：“to(nite|knight|night)”

目标文本：“tonight”

正则表达式从“t”开始，每次检查一部分（由引擎查看表达式的一部分），同时检查当前文本是否匹配表达式的当前部分。如果是，则继续表达式的下一部分，直到表达式的所有部分都能匹配。

此例中第一个元素是“t”，它会重复尝试，在目标字符串中找到“t”为止，然后检查“o”，过程与此一致。然后是“(nite|knight|night)”部分，表达式会一次尝试，直到宣告匹配成功或失败才会停止。表达式中的控制权在不同元素之间转换，所以作者称其为“表达式主导”

所以正则：“nfa|nfa not”，目标字符串：“nfa not”中，也只是匹配“nfa”而已，而不会完整的匹配。

DFA （确定型有穷自动机） ：文本主导

DFA引擎在扫描字符串时，会记录“当前有效”的所有匹配可能。

还是最初的例子，引擎移动到“t”时，它会在当前处理匹配可能中添加一个潜在的可能

接下来扫描的每个字符，都会更新当前的可能匹配序列。继续扫描两个字符之后的情况如上图。分支“knight”被排除。

书中作者称其问文本主导，是因为扫描每个字符的时候都对引擎进行了控制

测试引擎类型

1.如果支持忽略优先量词，那么基本就是传统NFA。DFA不支持忽略优先量词，POSIX NFA中也没有意义。

2.DFA不支持捕获型括号和回溯。在这两种混合类型的引擎中，如果没有使用捕获型括号，就会使用DFA

ps：在RegexBuddy中似乎只有传统NFA，起码做1的验证时结果是这样的，所以DFA和混合型引擎在这就不做验证了，本文也主要针对java，所以这里指着重介绍和java相关内容

两条普适原则（来自《精通正则表达式》 v3）：

1.优先匹配最左面（最靠开头）的匹配结果

注意：此原则并没有规定优先匹配结果的长度，而只是规定在所有可能的匹配结果中，优先选择最左边的（可能有）。

作者关于此原则的解释：匹配先从需要查找的字符串的起始位置尝试匹配。这里的“尝试匹配”的意思是：在当前位置测试整个正则表达式能匹配的每个可能。如果在当前位置测试了所有的可能之后找不到匹配结果，就需要从字符的第二个字符之前的位置开始重新尝试……只有在尝试过所有的起始位置（直到字符串的最后一个字符）都找不到匹配结果的情况下，才会报告失败。

下面给出一个例子：

目标字符串“This is a cat.”

我想匹配字符“is”，我的正则为“is”

结果如下（图1）：