正则表达式学习摘录-备忘【乱】

最新推荐文章于 2020-10-01 06:22:08 发布

TaoLR

最新推荐文章于 2020-10-01 06:22:08 发布

阅读量666

点赞数

分类专栏： linux

本文链接：https://blog.csdn.net/lin_credible/article/details/44735845

版权

linux 同时被 2 个专栏收录

106 篇文章 0 订阅

订阅专栏

Code

33 篇文章 0 订阅

订阅专栏

PS：之前看《精通正则表达式》部分摘录，只是备忘，不适合阅读！Sorry!

#有一定的理论素养，却又始终以实践为本！

正则表达式能够得到众多语言和工具的支持是有原因的: 它们极其有用. 从较低的层面上来说,正则表达式描述的是一串文本( a chunk of text ）的特征。我们可以用它来验证用户输入的数据，或者也可以用它来检索大量的文本。从较高的层面上来说，正则表达式容许用户掌控他们自己的数据——控制这些数据，让它们为自己服务。掌握正则表达式，就是掌握自己的数据。

正则表达式（Regular Expression ）是强大、便捷、高效的文本处理工具。正则表达式本身，加上如同一门袖珍编程语言的通用模式表示法（general pattern notation ），赋予使用者描述
和分析文本的能力。配合上特定工具提供的额外支持，正则表达式能够添加、删除、分离、叠加、插入和修整各种类型的文本和数据。

一个字符组，即使是排除型字符组，也需要匹配一个字符。

如果我们需要在表达式中使用一个“匹配任何字符”的占位符（placeholder），用点号就很方便。

一个字符组只能匹配目标文件中的单个字符，而每个多选结构自身都可能是完整的正则表达式，都可以匹配任意长度的文本。
字符组基本可以算是一门独立的微型语言（例如，对与元字符，它们有自己的规定），而多选结构是“正则表达式语言主体“(main regular expression language) 的一部分。你将会发现，这两者都非常有用。

穷举所有可能出现的重复单词显然是不可能完成的任务。如果我们先匹配任意一个单词，接下来检查“后面的单词是否与它一样”，就好办多了。

反向引用是正则表达式的特性之一，它容许我们匹配与表达式先前部分匹配的同样的文本。

在支持反向引用的工具软件中，括号能够“记忆”其中的子表达式匹配的文本，不论这些文本是什么，元字符序列【\1】能记住它们。

任何语言中都存在不同的方言和口音，很不辛，正则表达式也一样。情况似乎是，每一种支持正则表达式的语言都提供了自己的“改进”。
正则表达式的不断发展，但多年的变化也造就了数目众多的正则表达式“流派”( flavor）。

% perl -p -i -e 's/sysread/read/g' file.txt
这条命令中的 perl 程序是 s/sysread/read/g （是的，这就是一个完整的 perl 程序——参数 -e 表示整个程序接在命令的后面）。
参数 -p 表示对目标文件的每一行进行查找和替换，而 -i 表示将替换的结果写回到文件。

==========================================================

脱字符 ^ 匹配需要搜索的文本的起始位置，如果使用了增强的行锚点匹配模式，它还能匹配每个换行符之后的位置。在某些系统中，增强模式下 ^ 还能匹配 Unicode 的行终结符.如果可以使用，无论在什么匹配模式下， \A 总是能匹配待搜索文本的起始位置。 (在 grep 中没有～验证了，高版本中不清楚)

===============================================================

正则引擎的分类
正则引擎主要可以分为基本不同的两大类：
一种是 DFA（确定的有穷自动机，相当于之前说的电动机），
另一种是 NFA （不确定的有穷自动机，相当于前面的汽油机）。

两条普适的原则：
1，优先选择最左端（最靠开头）的匹配结果。
2，标准的匹配量词（*, +, ? 和 {m, n} ) 是匹配优先的。

捕获括号（以及相应的反向引用和$1表示法）就像汽油添加剂一样——它们只对汽油机(NFA)起作用，对电动机 (DFA)不起作用。忽略优先量词也是如此。

匹配优先量词之所有得名，是因为它们总是（或者，至少是尝试）匹配多于匹配成功下限的字符。

标准量词的匹配优先中的，"过度的匹配优先以及先来先服务等的分析！" P152

表达式主导与文本主导

DFA 和 NFA 反映了将正则表达式在应用算法上的根本差异。作者把对应汽油机的 NFA 称为 “表达式主导 (regex-directed) " 引擎，而对应电动机的 DFA 称为 "文本主导 (text-directed) “ 引擎。

表达式中的控制权在不同的元素之间转换，所以作者称它为“表达式主导”。
与表达式主导的NFA不同，DFA引擎在扫描字符串时，会记录“当前有效”的所有匹配可能。
称这种方式为“文本主导”，是因为它扫描的字符串中的每个字符都对引擎进行了控制。

很多不同的表达式都可以捕获相同的结果，但是它们以不同的方式控制引擎。

DFA并不关心表达式的形式!

关于NFA中回溯的一条重要原则：如果需要在“进行尝试”和“跳过尝试“之间选择，对于匹配优先量词，引擎会优先选择“进行尝试”，而对于忽略优先量词，会选择“跳过尝试“。

距离当前最近存储的选项就是当本地失败强制回溯时返回的。使用的原则是LIFO（last in first out, 后进先出)。

ab?c --> ? 是优先匹配的!
ab??c --> ??是忽略优先的!

注意一点：由星号（或其他任何匹配优先量词）限定的部分不受后面元素影响，而只是匹配尽可能多的内容。在之前例子中，　. * 点星号，在点号匹配失败之前，完全不知道，到底应该在哪个数字或者是其他什么地方停下来。在 .*([0-9]+) 的例子中我们看到， [0-9]+ 只能匹配一位数字。

DFA不支持忽略优先！

.* 匹配时只从自身出发，匹配尽可能多的内容，只有在全局匹配需要的情况下才会“被迫”交还一些字符。有些时候问题很严重。