目录
一:正则表达式
正则表达式又称正规表达式、常规表达式。在代码中常简写为regex、regexp或 RE。正则表达式是使用单个字符串来描述、匹配一系列符合某个句法规则的字符串,简单来说,是一种匹配字符串的方法,通过一些特殊符号,实现快速查找、删除、替换某个特定字符串。
正则表达式是由普通字符与元字符组成的文字模式。模式用于描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。其中普通字符包括大小写字母、数字、标点符号及一些其他符号,元字符则是指那些在正则表达式中具有特殊意义的专用字符,可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式。
正则表达式一般用于脚本编程与文本编辑器中。很多文本处理器与程序设计语言均支持正则表达式,例如 Linux 系统中常见的文本处理器(grep、egrep、sed、awk)以及应用比较广泛的 Python 语言正则表达式具备很强大的文本匹配功能,能够在文本海洋中快速高效地处理文本。
二:基础正则表达式
正则表达式的字符串表达方法根据不同的严谨程度与功能分为基本正则表达式与扩展正则表达式。基础正则表达式是常用正则表达式最基础的部分。在 Linux 系统中常见的文件处理工具中 grep 与 sed支持基础正则表达式,而 egrep 与 awk 支持扩展正则表达式。掌握基础正则表达式的使用方法,首先必须了解基本正则表达式所包含元字符的含义,下面通过 grep 命令以举例的方式逐个介绍。
1. 基础正则表达式示例
准备一个名为test.txt的测试文件
[root@localhost ~# cat test.txt
he was short and fat. He was wearing a blue polo shirt with black pants. The home of Football on BBc Sport online.
the tongue is boneless but it breaks bones.12!
google is the best tools for search keyword. The year ahead will test our politicalestablishment to the limit. PI=3.141592653589793238462643383249901429
a wood cross!
Actions speak louder than words
#woood #
#woooooood #
AxyzxyzxyzxyzC
I bet this place is really spooky late at night!
Misfortunes never come alone/single.
I shouldn't have lett so tast.
(1)查找特定字符
查找特定字符非常简单,如执行以下命令即可从 test.txt 文件中査找出特定字符“the”所在位置其中“-n”表示显示行号、“-i”表示不区分大小写。命令执行后,符合匹配标准的字符,字体颜色会变为红色。
[root@localhost ~]# grep -n 'the' test.txt
4:the tongue is boneless but it breaks bones.12!
5:google is the best tools for search keyword, 6:The vear ahead will test our politicalestablishment to the limit.
[root@localhost ~]# grep -in 'the test.txt
3:The home of Football on BBc Sport online. 4:the tongue is boneless but it breaks bones.12!
5:google is the best tools for search keyword. 6:The year ahead will test our politicalestablishment to the limit.
若反向选择,如查找不包含“the”字符的行,则需要通过 grep 命令的“-v”选项实现,并配合“-n”起使用显示行号。
[root@localhost ~]# grep -vn 'the' test.txt
1:he was short and fat, 2:He was wearing a blue polo shirt with black pants. 3:Thehome of Football on BBc Sport online.7:P=3.1415926535897932384626433832499014298:a wood cross!
9:Actions speak louder than words
10:
11:#woood #
12:#woooooood #
13:AxyzxyzxyzxyzC
14:I bet this place is really spooky late at night!
15:Misfortunes never come alone/single. 16:I shouldn't have lett so tast.
(2)利用中括号“[]”来查找集合字符
想要査找“shirt”与“short”这两个字符串时,可以发现这两个字符串均包含“sh”与“rt”。此时执行以下命令即可同时査找到“shirt”与“short”这两个字符串,其中“[]”中无论有几个字符,都仅代表一个字符,也就是说“[io]”表示匹配“i”或者“o”。
[root@localhost ~]# grep -n'sh[io]rt'test.txt
1:he was short and fat, 2:He was wearing a blue polo shirt with black pants.
若要查找包含重复单个字符“oo”时,只需要执行以下命令即可
[root@localhost ~]# grep -n'oo'test.txt
3:The home of Football on BBc Sport online. 5:google is the best tools for search keyword. 8:a wood cross!
11:#woood #
12:#woooooood #
14:I bet this place is really spooky late at night!
若査找“oo”前面不是“w”的字符串,只需要通过集合字符的反向选择“[^]”来实现该目的。例如执行“grep -n'[^w]oo'test.txt”命令表示在 test.txt 文本中査找“oo”前面不是“w”的字符串。
[root@localhost ~]# grep -n'[^w]oo'test.txt3:The home of football on BBc Sport online, 5:google is the best tools for searchkeyword. 11:#woood #
12:#wooo0oood #
14:I bet this place is really spooky late at night!
在上述命令的执行结果中发现“woood”与“wooooood”也符合匹配规则,二者均包含“w”。其实通过执行结果就可以看出,符合匹配标准的字符加粗显示,而上述结果中可以得知,“#woood #”中加粗显示的是“ooo”,而“o0”前面的“。”是符合匹配规则的。同理“#woooooood #”也符合匹配规则。
若不希望“oo”前面存在小写字母,可以使用“grep -n'[^a-z]oo'test.txt”命令实现,其中 a-z”表示小写字母,大写字母则通过“A-Z”表示。
[root@localhost ~]# grep -n'[^a-z]oo'test.txt
3:The home of Football on BBc Sport online.
查找包含数字的行可以通过“grep -n'[0-9]’test.txt”命令来实现
[root@localhost ~]# grep -n'[0-9]' test.txt
4:the tongue is boneless but it breaks bones.12!
7:PI=3.141592653589793238462643383249901429
(3)查找行首“^”与行尾字符“$”
基础正则表达式包含两个定位元字符:“^”(行首)与“$”(行尾)。在上面的示例中,查询“the”字符串时出现了很多包含“the”的行,如果想要査询以“the”字符串为行首的行,则可以通过“^”元字符来实现
[root@localhost ~]# grep -n '^the' test.txt
4:the tongue is boneless but it breaks bones.12!
(4)查找任意一个字符“.”与重复字符“*”
前面提到,在正则表达式中小数点(.)也是一个元字符,代表任意一个字符。例如执行以下命令就可以査找“w??d”的字符串,即共有四个字符,以 w开头 d 结尾。
[root@localhost ~]# grep -n'w..d' test.txt
5:google is the best tools for search keyword.
8:a wood cross!
9:Actions speak louder than words
(5)查找连续字符范围“{}”
查询两个0的字符。
[root@localhost ~]# grep -n'o\{2\}' test.txt
3:The home of Football on BBc Sport online. 5:google is the best tools for searchkeyword. 8:a wood cross!
11:#woood #
12:#woooooood #
14:I bet this place is really spooky late at night!
查询以 w 开头以 d 结尾,中间包含 2~5 个o的字符串
[root@localhost ~]# grep -n'wo{2,5\}d' test.txt
8:a wood cross!
11:#woood #
查询以 w 开头以 d 结尾,中间包含 2 个或 2 个以上0的字符串。
[root@localhost ~]# grep -n'wo\{2,\}dtest.txt
8:a wood cross!
11:#woood #
12:#woooooood #
2. 元字符总结
字符 | 说明 |
---|---|
\ | 将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符 |
^ | 匹配输入字符串的开始位置 |
$ | 匹配输入字符串的结束位置 |
* | 匹配前面的子表达式零次或多次 |
+ | 匹配前面的子表达式一次或多次 |
? | 匹配前面的子表达式零次或一次 |
. | 匹配除换行符(\n , \r )之外的任何单个字符 |
[a-z] | 字符范围。匹配指定范围内的任意字符 |
{n} | n 是一个非负整数,匹配确定的 n 次 |
{n,} | n 是一个非负整数,至少匹配 n 次 |
{n,m} | m 和 n 均为非负整数,其中 n <= m。最少匹配 n 次且最多匹配 m 次 |
\d | 匹配一个数字字符。等价于 [0-9] |
\D | 匹配一个非数字字符。等价于 [^0-9] |
\s | 匹配任何空白字符,包括空格、制表符、换页符等。等价于 [ \f\n\r\t\v] |
\S | 匹配任何非空白字符。等价于 [^ \f\n\r\t\v] |
\w | 匹配字母、数字、下划线。等价于 '[A-Za-z0-9_]' |
\W | 匹配非字母、数字、下划线。等价于 '[^A-Za-z0-9_]'。 |
\n | 匹配一个换行符 |
\f | 匹配一个换页符 |
\r | 匹配一个回车符 |
3. 扩展正则表达式
元字符 | 作用 | 示例 |
---|---|---|
+ | 重复一个或一个以上的前一个字符 | egrep -n 'wo+d' test.txt 匹配:"wood", "woood", "woooooood" |
? | 匹配零个或一个前一个字符 | egrep -n 'bes?t' test.txt 匹配:"bet", "best" |
| | 使用或(or)方式匹配多个字符 | egrep -n 'of|if|on' test.txt 匹配:"of", "if", "on" |
() | 查找"组"字符串 | egrep -n 't(a|e)st' test.txt 匹配:"tast", "test" |
()+ | 匹配多个重复的组 | egrep -n 'A(xyz)+C' test.txt 匹配:"AxyzC", "AxyzxyzC" |
二:文本处理器
工具 | 主要用途 | 特点 |
---|---|---|
grep | 文本搜索 | 支持正则表达式,快速过滤行 |
sed | 流编辑器(查找/替换/删除) | 非交互式,按行处理,支持正则 |
awk | 结构化文本处理(列操作) | 支持编程逻辑(变量/循环/条件),处理表格数据 |
cut | 按列提取文本 | 简单列切割,不支持复杂分隔符 |
tr | 字符替换/删除 | 单字符级处理,高效但功能有限 |
sort | 文本排序 | 支持按字段、数字、字典序排序 |
uniq | 去重/统计重复行 | 需先排序才能正确去重 |
paste | 合并文件(按列拼接) | 简单横向合并 |
1. sed工具
sed 的工作流程主要包括读取、执行和显示三个过程。
-
读取:sed 从输入流(文件、管道、标准输入)中读取一行内容并存储到临时的缓冲区中(又称模式空间,pattern space)。
-
执行:默认情况下,所有的 sed 命令都在模式空间中顺序地执行,除非指定了行的地址,否则 sed命令将会在所有的行上依次执行。
-
显示:发送修改后的内容到输出流。在发送数据后,模式空间将会被清空。
在所有的文件内容都被处理完成之前,上述过程将重复执行,直至所有内容被处理完。注意:默
注意:默认情况下所有的 sed 命令都是在模式空间内执行的,因此输入的文件并不会发生任何变化,余非是用重定向存储输出。
sed [选项] '操作’ 参数
sed [选项] -f scriptfile 参数
常见的 sed 命令选项主要包含以下几种。
-
-e或--expression=:表示用指定命令或者脚本来处理输入的文本文件。
-
-f或--file=:表示用指定的脚本文件来处理输入的文本文件。
-
-h或--help:显示帮助。
-
-n、--quiet 或 silent:表示仅显示处理后的结果。
-
-i:直接编辑文本文件。
“操作”用于指定对文件操作的动作行为,也就是 sed 的命令。通常情况下是采用的“[n1[,n2]]”探作参数的格式。n1、n2 是可选的,代表选择进行操作的行数,如操作需要在 5~28 行之间进行,则表示为“5,20 动作行为”。常见的操作包括以下几种。
-
a:增加,在当前行下面增加一行指定内容。
-
c:替换,将选定行替换为指定内容。
-
d:删除,删除选定的行。
-
i:插入,在选定行上面插入一行指定内容。
-
p:打印,如果同时指定行,表示打印指定行;如果不指定行,则表示打印所有内容;如果有非打印字符,则以 ASCII 码输出。其通常与“-n”选项一起使用。
-
s:替换,替换指定字符。
-
y:字符转换。
(1)输出符合条件的文本(p 表示正常输出)
[root@localhost ~]# sed -ntest.txt
//输出所有内容,等同于 cat test.txt
he was short and fat, He was wearing a blue polo shirt with black pants. The home
of Football on BBC Sport online
.….//省略部分内容
[root@localhost ~]# sed -n'p;n' test.txt
//输出所有奇数行,n 表示读入下一行资料
he was short and fat, The home of Football on BBc Sport online.google is the best
tools for search keyword.…//省略部分内容
[root@localhost ~]# sed -n'/\<wood\>/p' test.txt
//输出包含单词 wood 的行,<、\>代表单词边界
a wood cross!
(2)删除符合条件的文本(d)
[root@localhost ~]# nl test.txtsed '/cross/d"
//删除包含 cross 的行,原本的第 8 行被删除;如果要删除不包含 cross 的行,用!符号表示取反操作,如'/cross/!d'……
//省略部分内容
7 PI=3.141592653589793238462643383249901429
9 Actions speak louder than wordsseeeet
//省略部分内容
[root@localhost ~]# sed'/\.$/d' test.txt
//删除以"."结尾的行
the tongue is boneless but it breaks bones.12!
PI=3.141592653589793238462643383249901429
a wood cross!
Actions speak louder than words
#woood #
#woooooood #
AxyzxyzxyzxyzC
I bet this place is really spooky late at night!
(3)替换符合条件的文本
在使用 sed 命令进行替换操作时需要用到 s(字符串替换)、c(整行/整块替换)、y(字符转换)
命令选项,常见的用法如下所示。
sed"s/the/THE/'test.txt
//将每行中的第一个 the 替换为 THE
sed "/the/s/^/#/test.txt
//在包含 the 的每行行首插入#号
(4)迁移符合条件的文本
在使用 sed 命令迁移符合条件的文本时,常用到以下参数:
-
H:复制到剪贴板;
-
g、G:将剪贴板中的数据覆盖/追加至指定行:
-
w:保存为文件;
-
r:读取指定文件;
-
a:追加指定内容
sed '/the/{H;d};$G' test.txt
//将包含 the 的行迁移至文件末尾,{;}用于多个操作
sed '3aNew1\nNew2'test.txt
//在第 3 行后插入多行内容,中间的\n 表示换行
(5)使用脚本编辑文件
sed '1,5{H;d};17G'test.txt
//将第 1~5 行内容转移至第 17 行后
2. awk 工具
在 Linux/UNIX 系统中,awk 是一个功能强大的编辑工具,逐行读取输入文本,并根据指定的匹配模式进行查找,对符合条件的内容进行格式化输出或者过滤处理,可以在无交互的情况下实现相当复杂的文本操作,被广泛应用于 Shell 脚本,完成各种自动化配置任务。
通常情况下 awk 所使用的命令格式如下所示,其中,单引号加上大括号“{}”用于设置对数据进行的处理动作。awk可以直接处理目标文件,也可以通过“-f”读取脚本对目标文件进行处理。
awk 选项 '模式或条件 {编辑指令}' 文件 1 文件 2 ... //过滤并输出文件中符合条件的内容
awk -f 脚本文件 文件 1 文件 2 ... //从脚本中调用编辑指令,过滤并输出内容
前面提到 sed 命令常用于一整行的处理,而 awk 比较倾向于将一行分成多个“字段”然后再进行处理,且默认情况下字段的分隔符为空格或 tab 键。awk 执行结果可以通过 print 的功能将字段数据打印显示。在使用 awk 命令的过程中,可以使用逻辑操作符“&&”表示“与”、“|”表示“或”、“!”表示“非”还可以进行简单的数学运算,如+、-、*、/、%、^分别表示加、减、乘、除、取余和乘方。
在 Linux 系统中/etc/passwd 是一个非常典型的格式化文件,各字段间使用“:”作为分隔符隔开,Linux 系统中的大部分日志文件也是格式化文件,从这些文件中提取相关信息是运维的日常工作内容之一。若需要查找出/etc/passwd 的用户名、用户 ID、组 ID 等列,执行以下 awk 命令即可。
[root@localhost ~]# awk -F':''{print $1,$3,$4}'/etc/passwd
root 0 0
bin 1 1
daemon 2 2
….//省略部分内容
awk 包含几个特殊的内建变量(可直接用)如下所示:
-
FS:指定每行文本的字段分隔符,默认为空格或制表位。
-
NF:当前处理的行的字段个数。
-
NR:当前处理的行的行号(序数)
-
$0:当前处理的行的整行内容。
-
$n:当前处理行的第n个字段(第n列)。
-
FILENAME:被处理的文件名。
-
RS:数据记录分隔,默认为\n,即每行为一条记录。
(1)按行输出文本
awk '{print}' test.txt
//输出所有内容,等同于 cat test.txt
awk(NR%2)==1{print}'test.txt
//输出所有奇数行的内容
(2)按字段输出文本
awk '{print $3}'test.txt
//输出每行中(以空格或制表位分隔)的第3个字段
awk -F'($7!="/bin/bash")&&($7!="/sbin/nologin"){print}' /etc/passwd
//输出第7 个字段既不为/bin/bash 也不为/sbin/nologin 的所有行
(3)通过管道、双引号调用 shell 命令
awk -F:'/bash$/{print"wc -l"}'/etc/passwd
//调用 wc -1 命令统计使用 bash 的用户个数,等同于 grep -c:"bash$" /etc/passwd
awk'BEGIN{while("w"getline)n++ ;{print n-2}}
//调用w命令,并用来统计在线用户数
awk 'BEGIN {"hostname"getline ;print $0}
//调用 hostname,并输出当前的主机名