1.ls -A | wc -l
用于计算当前目录下的条目数(忽略特殊条目 .
和 ..
),它包含两个句子。第一个句子 ls -A
是动词结构,列举当前目录下的内容,第二个句子 wc -l
是另一个动词结构,用于计算行数。第一个句子输出的结果作为第二个句子的输入,并由连接词(管道)连接这两个句子。
-A, --almost-all
do not list implied . and ..
2.grep
命令行:
grep -i man heroes.txt |
其中 grep
扫描 heroes.txt 文件中的每一行并查找字母 m,后面紧跟 a,然后紧跟 n。除了必须保证相邻,这些字母可以出现在行的任何位置,甚至可以位于较大的单词中间。
在不考虑大小写的情况下:-i
选项
grep
实用工具包含其他可优化搜索的内置选项。例如,
-w
选项限制于匹配整个单词,因此 grep -i -w man
将排除 Catwoman 和 Batman
还有一个优秀的功能,可以排除而不是包括所有匹配的搜索结果。
使用 -v
选项来排除 匹配的行。例如:
grep -v -i 'spider' heroes.txt |
将打印除了包含字符串 spider
之外的所有行。
3.
正则表达式
正则表达式可以 过滤特定的位置,例如行的开始或结束,以及单词的开始和结束。正则表达式(通常简写为 regex)还可以描述:备选项(您可将其称为“this”或“that”);固定长度、可变长度或不定长度的重复;范围(例如,“a-m 之间的任意字母”);还有字符的类别或种类(“可打印字符”或“标点符号”),以及其他技术。
表 1 显示了一些常用的正则表达式操作符。您可以连接表 1 中显示的元素(以及其他操作符)并加以组合使用,从而构建(非常)复杂的正则表达式。
表 1. 常用的正则表达式操作符
操作符 | 用途 |
| 匹配任意单个字符。 |
| 匹配出现在行首或字符串开始位置的空字符串。 |
| 匹配出现在行末的空字符串。 |
| 匹配大写字母 A。 |
| 匹配小写字母 a。 |
| 匹配任意一位数字。 |
| 匹配任意单个非数字字符。 |
| 匹配任意单个字母数字字符,同义词是 |
| 匹配任意大写的 A、B、C、D 或 E。 |
| 匹配除 A、B、C、D 和 E 之外的任意字符。 |
| 匹配出现零次或一次的大写字母 X。 |
| 匹配零个或任意个大写 X。 |
| 匹配一个或多个字母 X。 |
| 精确匹配 n 个字母 X。 |
| 匹配最少 n 个并且不超过 m 个字母 X。如果省略 m,表达式将尝试匹配最少 n 个 X。 |
| 匹配一连串的(最少一个) |
1
)查找以
“Bat”
开头的名称
要查找以“Bat”开头的名称,请使用:
grep -E '^Bat' hero.txt |
可以使用 -E
选项来指定正则表达式。
^
(脱字号)字符匹配行首或字符串的开头,这是一个出现在每行或每个字符串开头字符之前的假想字符。字母 B
、a
和 t
只具有字面含义并且仅匹配那些特定的字符。因此,命令 grep -E '^Bat'
将生成:
Batman Batgirl |
Tip: 由于许多 regex 操作符也为 Shell 所使用(其中一些具有不同的用途,另外一些则有类似的用途),因此一个好的习惯是使用单引号将命令行中的每个 regex 括起来,以保护 regex 操作符免遭 Shell 的误解。例如,*
(星号)和 $
(美元符号)都是 regex 操作符,并且对于您的 Shell 具有特殊的含义。
2)
查找以
“man”
结尾的名称
要查找以“man”结尾的名称,可以使用 regex man$
来匹配序列 m
、a
和 n
,并且后面紧接与 regex 操作符 $
匹配的行(字符串)。
grep -E 'man$' hero.txt
3)
查找空行
基于 ^
和 $
的作用,您可以使用 regex ^$
来查找空行(相当于在开始之后立即结束的行)。
grep -E ^$ hero.txt
4)
备选项或集合操作符
(1)要查找以“bat”、“Bat”、“cat”或“Cat”开头的单词,
grep -E '^(bat|Bat|cat|Cat)' heroes.txt |
可实现这一技巧。regex 操作符 |
(竖线)表示备选项,因此 this|that
匹配字符串 this
或字符串 that
。因此,^(bat|Bat|cat|Cat)
表示“行首紧跟 bat
、Bat
、cat
或 Cat
之一。”
可以使用 grep -i
来简化该 regex,这样可以忽略大小写,从而将命令简化为:
grep -i -E '^(bat|cat)' heroes.txt |
另一个方法是使用 [ ]
(方括号)集合 操作符。如果将一组字符放在一个集合中,则可以匹配那些字符中的任意一个,例如,命令行:
grep -E '^[bcBC]at' heroes.txt |
grep –E -i '^[bc]at' heroes.txt
还可以使用 -
(连字符)操作符在集合中指定包含的字符范围。例如,用户名通常以字母开头。假定要在提交给您的服务器的 Web 表格中验证这样的用户名,可以使用类似于 ^[A-Za-z]
的 regex。此 regex 表示“字符串的开头后紧跟任意大写字母 (A-Z) 或任意小写字母 (a-z)。”
(2)顺便说明一下,[A-z]
与 [A-Za-z]
作用相同。
(3)还可以在集合中混合使用范围和单个字符。regex [A-MXYZ]
将匹配任意大写的 A-M、X、Y 和 Z。
(4)并且,如果希望反转集合(即排除集合中的任意字符),可以使用特殊集合 [^ ]
并包含要排除的范围或字符。以下是反转集合的示例。要查找所有名称中包含 at 的超级英雄,并排除 Dark Knight 和 Batman,请键入:(即不含有’B/b’,含有’at’)
grep -i -E '[^b]at' heroes.txt |
由于某些集合需要经常使用,所以设计出简化符号以代替大量字符。例如,集合 [A-z0-9_]
十分常用,因此可以简写为 /w
。与此类似,操作符 /W
是集合 [^A-z0-9_]
的简写。还可以使用符号 [:alnum:]
代替 /w
,使用 [^[:alnum:]]
代替 /W
。
4.正则表达式中的重复
通过以下 regex 命令可以确保每个用户名以字母开头并紧跟恰好七个字母或数字:
[a-z][a-z0-9][a-z0-9][a-z0-9][a-z0-9][a-z0-9][a-z0-9][a-z0-9] |
但是这样有点笨拙。而且,它只匹配恰好八个字符的用户名。它不会匹配三到八个字符之间的名称,这通常也是有效的用户名。
正则表达式还可以包括重复修饰符。重复修饰符可以指定数量,如没有、一个、多个、一个或多个,零或一个、五到十个,以及恰好三个。重复修饰符必须与其他模式组合,修饰符本身没有含义。
例如,regex:
^[A-z][A-z0-9]{2,7}$ |
可以实现前面描述的用户名过滤功能。用户名 是以字母开头,后面紧跟至少两个,但不超过七个字母或数字的字符串,并且紧跟字符串结尾。
此处的位置定位点非常重要。如果没有两个位置操作符,则会错误地接受任意长度的用户名。为什么呢?请考虑 regex:
^[A-z][A-z0-9]{2,7} |
此命令辨别:字符串是否以字母开头并紧跟二到七个字母?但是它未提到终止条件。因此,字符串 samuelclemens
满足条件,但是它的长度显然超出了有效用户名的范围。与此类似,省略开始定位点 ^
,或同时省略两个定位点将分别匹配以类似 munster1313
结束或包含该字符串的字符串。如果必须匹配特定的长度,请记得在要求的模式的开头和结尾分别加上分隔符。
以下是其他一些示例:
可以使用 {2,}
查找两次或多次重复。regex ^G[o]{2,}gle
匹配 Google
、Gooogle
、Goooogle
等等。
重复修饰符 ?
、+
和 *
分别查找零次或一次、一次或多次,以及零次或多次重复。(例如,您可以将 ?
看作是 {0,1}
的简写法。)
regex boys?
匹配 boy
或 boys
;regex Goo?gle
匹配 Gogle
或 Google
。
regex Goo+gle
匹配 Google
、Gooogle
、Goooogle
等等。
construct Goo*gle
匹配 Gogle
、Google
、Gooogle
等等。
可以将重复修饰符应用到单个字符(如上所示),还可以应用到更复杂的组合。使用 (
和 )
圆括号将修饰符应用到子表达式。下面是一个示例:给定文本文件 test.txt:
The rain in Spain falls mainly on the the plain.
It was the best of of times; it was the worst of times. |
命令 grep -i -E '(/b(of|the)/W+){2,}' test.txt
将生成:
on the the plain. It was the best of of times; |
regex 操作符 /b
匹配单词边界 或 (/W/w|/w/W)
。该 regex 表示“一连串完整单词‘the’或‘of’后面紧跟非文字字符。”您可能会提出疑问,为什么 /W+
是必需的:/b
是位于单词开头或结尾的空字符串。在单词之间必须包括这一(或这些)字符,否则该 regex 将无法找到匹配。
5.其他:
正则表达式通过捕获 来提取信息。如果希望将需要的文本与其他内容分开,请使用圆括号将模式括起来。实际上,您已经使用圆括号收集术语;在默认情况下,圆括号自动进行捕获。
要查看捕获,请切换到 Perl。(grep
实用工具不支持捕获,因为其目标是打印包含模式的行。)
以下命令:(以“The”开头,“The”后一个空格,空格到末尾的部分捕获)
perl -n -e '/^The/s+(.*)$/ && print "$1/n"' heroes.txt |
将打印:
(捕获的行:
The Tick
The Punisher)
Tick Punisher |
1)使用命令 perl -e
可以直接从命令行运行 Perl 程序。:/^The
2
)
perl -n
命令针对输入文件的每一行运行一次程序。
3)命令的 regex 部分,即位于斜杠之间的文本(/
)表示“匹配字符串的开头,然后字母‘T’、‘h’、‘e’后紧跟一个或多个空格字符 :/s+
4)然后捕获直到字符串结尾的所有字符。:(.*)$
5)Perl 捕获内容被放在以 $1
开头的特殊 Perl 变量中。Perl 程序的其余部分打印捕获的内容。
每个嵌套的括号对,从左开始算起,每个左圆括号加一,放在下一个特殊的数字变量中。例如:
perl -n -e '/^(/w)+-(/w+)$/ && print "$1 $2"' |
将生成:
Spider Man Ant Man Spider Woman |