对话 UNIX，第 9 部分: 正则表达式---笔记

最新推荐文章于 2022-10-31 03:00:00 发布

dingxy

最新推荐文章于 2022-10-31 03:00:00 发布

阅读量713

点赞数

分类专栏： Linux/Shell/Perl/AWK... 文章标签：正则表达式 unix regex perl google shell

本文链接：https://blog.csdn.net/dingxy/article/details/2445499

版权

Linux/Shell/Perl/AWK... 专栏收录该内容

110 篇文章 0 订阅

订阅专栏

1.ls -A | wc -l

用于计算当前目录下的条目数（忽略特殊条目 . 和 ..），它包含两个句子。第一个句子 ls -A 是动词结构，列举当前目录下的内容，第二个句子 wc -l 是另一个动词结构，用于计算行数。第一个句子输出的结果作为第二个句子的输入，并由连接词（管道）连接这两个句子。

-A, --almost-all

do not list implied . and ..

2.grep命令行：

grep -i man heroes.txt

其中 grep 扫描 heroes.txt 文件中的每一行并查找字母 m，后面紧跟 a，然后紧跟 n。除了必须保证相邻，这些字母可以出现在行的任何位置，甚至可以位于较大的单词中间。

在不考虑大小写的情况下:-i 选项

grep 实用工具包含其他可优化搜索的内置选项。例如，

-w 选项限制于匹配整个单词，因此 grep -i -w man 将排除 Catwoman 和 Batman

还有一个优秀的功能，可以排除而不是包括所有匹配的搜索结果。

使用 -v 选项来排除匹配的行。例如：

grep -v -i 'spider' heroes.txt

将打印除了包含字符串 spider 之外的所有行。

3.正则表达式

正则表达式可以过滤特定的位置，例如行的开始或结束，以及单词的开始和结束。正则表达式（通常简写为 regex）还可以描述：备选项（您可将其称为“this”或“that”）；固定长度、可变长度或不定长度的重复；范围（例如，“a-m 之间的任意字母”）；还有字符的类别或种类（“可打印字符”或“标点符号”），以及其他技术。

表 1 显示了一些常用的正则表达式操作符。您可以连接表 1 中显示的元素（以及其他操作符）并加以组合使用，从而构建（非常）复杂的正则表达式。

表 1. 常用的正则表达式操作符

操作符	用途
`.`（句号）	匹配任意单个字符。
`^`（脱字号）	匹配出现在行首或字符串开始位置的空字符串。
`$`（美元符号）	匹配出现在行末的空字符串。
`A`	匹配大写字母 A。
`a`	匹配小写字母 a。
`/d`	匹配任意一位数字。
`/D`	匹配任意单个非数字字符。
`/w`	匹配任意单个字母数字字符，同义词是 `[:alnum:]`。
`[A-E]`	匹配任意大写的 A、B、C、D 或 E。
`[^A-E]`	匹配除 A、B、C、D 和 E 之外的任意字符。
`X?`	匹配出现零次或一次的大写字母 X。
`X*`	匹配零个或任意个大写 X。
`X+`	匹配一个或多个字母 X。
`X{n}`	精确匹配 n 个字母 X。
`X{n,m}`	匹配最少 n 个并且不超过 m 个字母 X。如果省略 m，表达式将尝试匹配最少 n 个 X。
`(abc\|def)+`	匹配一连串的（最少一个） `abc` 或 `def`；`abc` 和 `def` 将匹配。

1）查找以“Bat”开头的名称

要查找以“Bat”开头的名称，请使用：

grep -E '^Bat' hero.txt

可以使用 -E 选项来指定正则表达式。

^（脱字号）字符匹配行首或字符串的开头，这是一个出现在每行或每个字符串开头字符之前的假想字符。字母 B、a 和 t 只具有字面含义并且仅匹配那些特定的字符。因此，命令 grep -E '^Bat' 将生成：

Batman

Batgirl

Tip: 由于许多 regex 操作符也为 Shell 所使用（其中一些具有不同的用途，另外一些则有类似的用途），因此一个好的习惯是使用单引号将命令行中的每个 regex 括起来，以保护 regex 操作符免遭 Shell 的误解。例如，*（星号）和 $（美元符号）都是 regex 操作符，并且对于您的 Shell 具有特殊的含义。

2)查找以“man”结尾的名称

要查找以“man”结尾的名称，可以使用 regex man$ 来匹配序列 m、a 和 n，并且后面紧接与 regex 操作符 $ 匹配的行（字符串）。

grep -E 'man$' hero.txt

3)查找空行

基于 ^ 和 $ 的作用，您可以使用 regex ^$ 来查找空行（相当于在开始之后立即结束的行）。

grep -E ^$ hero.txt

4)备选项或集合操作符

(1)要查找以“bat”、“Bat”、“cat”或“Cat”开头的单词，

grep -E '^(bat|Bat|cat|Cat)' heroes.txt

可以使用 grep -i 来简化该 regex，这样可以忽略大小写，从而将命令简化为：

grep -i -E '^(bat|cat)' heroes.txt

另一个方法是使用 [ ]（方括号）集合操作符。如果将一组字符放在一个集合中，则可以匹配那些字符中的任意一个,例如，命令行：

grep -E '^[bcBC]at' heroes.txt

grep –E -i '^[bc]at' heroes.txt

还可以使用 -（连字符）操作符在集合中指定包含的字符范围。例如，用户名通常以字母开头。假定要在提交给您的服务器的 Web 表格中验证这样的用户名，可以使用类似于 ^[A-Za-z] 的 regex。此 regex 表示“字符串的开头后紧跟任意大写字母 (A-Z) 或任意小写字母 (a-z)。”

(2)顺便说明一下，[A-z] 与 [A-Za-z] 作用相同。

(3)还可以在集合中混合使用范围和单个字符。regex [A-MXYZ] 将匹配任意大写的 A-M、X、Y 和 Z。

(4)并且，如果希望反转集合（即排除集合中的任意字符），可以使用特殊集合 [^ ] 并包含要排除的范围或字符。以下是反转集合的示例。要查找所有名称中包含 at 的超级英雄，并排除 Dark Knight 和 Batman，请键入：(即不含有’B/b’,含有’at’)

grep -i -E '[^b]at' heroes.txt

由于某些集合需要经常使用，所以设计出简化符号以代替大量字符。例如，集合 [A-z0-9_] 十分常用，因此可以简写为 /w。与此类似，操作符 /W 是集合 [^A-z0-9_] 的简写。还可以使用符号 [:alnum:] 代替 /w，使用 [^[:alnum:]] 代替 /W。

4．正则表达式中的重复

通过以下 regex 命令可以确保每个用户名以字母开头并紧跟恰好七个字母或数字：

[a-z][a-z0-9][a-z0-9][a-z0-9][a-z0-9][a-z0-9][a-z0-9][a-z0-9]

但是这样有点笨拙。而且，它只匹配恰好八个字符的用户名。它不会匹配三到八个字符之间的名称，这通常也是有效的用户名。

正则表达式还可以包括重复修饰符。重复修饰符可以指定数量，如没有、一个、多个、一个或多个，零或一个、五到十个，以及恰好三个。重复修饰符必须与其他模式组合，修饰符本身没有含义。

例如，regex：

^[A-z][A-z0-9]{2,7}$

可以实现前面描述的用户名过滤功能。用户名 是以字母开头，后面紧跟至少两个，但不超过七个字母或数字的字符串，并且紧跟字符串结尾。

此处的位置定位点非常重要。如果没有两个位置操作符，则会错误地接受任意长度的用户名。为什么呢？请考虑 regex：

^[A-z][A-z0-9]{2,7}

此命令辨别：字符串是否以字母开头并紧跟二到七个字母？但是它未提到终止条件。因此，字符串 samuelclemens 满足条件，但是它的长度显然超出了有效用户名的范围。与此类似，省略开始定位点 ^，或同时省略两个定位点将分别匹配以类似 munster1313 结束或包含该字符串的字符串。如果必须匹配特定的长度，请记得在要求的模式的开头和结尾分别加上分隔符。

以下是其他一些示例：

可以使用 {2,} 查找两次或多次重复。regex ^G[o]{2,}gle 匹配 Google、Gooogle、Goooogle 等等。

重复修饰符 ?、+ 和 * 分别查找零次或一次、一次或多次，以及零次或多次重复。（例如，您可以将 ? 看作是 {0,1} 的简写法。）

regex boys? 匹配 boy 或 boys；regex Goo?gle 匹配 Gogle 或 Google。

regex Goo+gle 匹配 Google、Gooogle、Goooogle 等等。

construct Goo*gle 匹配 Gogle、Google、Gooogle 等等。

可以将重复修饰符应用到单个字符（如上所示），还可以应用到更复杂的组合。使用 ( 和 ) 圆括号将修饰符应用到子表达式。下面是一个示例：给定文本文件 test.txt：

The rain in Spain falls mainly

on the the plain.

It was the best of of times;

it was the worst of times.

命令 grep -i -E '(/b(of|the)/W+){2,}' test.txt 将生成：

on the the plain.

It was the best of of times;

regex 操作符 /b 匹配单词边界 或 (/W/w|/w/W)。该 regex 表示“一连串完整单词‘the’或‘of’后面紧跟非文字字符。”您可能会提出疑问，为什么 /W+ 是必需的：/b 是位于单词开头或结尾的空字符串。在单词之间必须包括这一（或这些）字符，否则该 regex 将无法找到匹配。

5．其他：

正则表达式通过捕获来提取信息。如果希望将需要的文本与其他内容分开，请使用圆括号将模式括起来。实际上，您已经使用圆括号收集术语；在默认情况下，圆括号自动进行捕获。

要查看捕获，请切换到 Perl。（grep 实用工具不支持捕获，因为其目标是打印包含模式的行。）

以下命令：（以“The”开头，“The”后一个空格，空格到末尾的部分捕获）

perl -n -e '/^The/s+(.*)$/ && print "$1/n"' heroes.txt

将打印：

（捕获的行：

The Tick

The Punisher）

Tick

Punisher

1）使用命令 perl -e 可以直接从命令行运行 Perl 程序。：/^The

2）perl -n 命令针对输入文件的每一行运行一次程序。

3）命令的 regex 部分，即位于斜杠之间的文本（/）表示“匹配字符串的开头，然后字母‘T’、‘h’、‘e’后紧跟一个或多个空格字符：/s+

4）然后捕获直到字符串结尾的所有字符。：(.*)$

5）Perl 捕获内容被放在以 $1 开头的特殊 Perl 变量中。Perl 程序的其余部分打印捕获的内容。

每个嵌套的括号对，从左开始算起，每个左圆括号加一，放在下一个特殊的数字变量中。例如：

perl -n -e '/^(/w)+-(/w+)$/ && print "$1 $2"'

将生成：

Spider Man

Ant Man

Spider Woman

dingxy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
对话 UNIX，第 9 部分: 正则表达式---笔记

1.ls -A | wc -l 用于计算当前目录下的条目数（忽略特殊条目 . 和 ..），它包含两个句子。第一个句子 ls -A 是动词结构，列举当前目录下的内容，第二个句子 wc -l 是另一个动词结构，用于计算行数。第一个句子输出的结果作为第二个句子的输入，并由连接词（管道）连接这两个句子。-A, --almost-all do not list impl
复制链接

扫一扫

专栏目录