Shell编程----正则表达式与三剑客

最新推荐文章于 2022-08-09 13:40:28 发布

一往无前，未来可期

最新推荐文章于 2022-08-09 13:40:28 发布

阅读量662

点赞数 1

分类专栏： Shell编程文章标签： linux 服务器 centos ssh 运维

本文链接：https://blog.csdn.net/LPFAM/article/details/107599377

版权

Shell编程专栏收录该内容

11 篇文章 0 订阅

订阅专栏

文章目录

前言
一：基础正则表达式
二：扩展正则表达式
三：文本处理器
四：sed工具使用方法
五：awk工具使用方法
六：sort工具;uniq工具;tr工具

前言

正则表达式，又称规则表达式（Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。
sed是文本处理工具，可以读取文本内容，根据指定条件对数据进行添加，删除，替换等操作，被广泛应用于shell脚本
awk是一个功能强大的编辑工具，用于在Linux/Unix下对文本和数据进行处理。

一：基础正则表达式

1.1：正则表达式的定义

正则表达式又称正规表达式、常规表达式。在代码中常简写为 regex、regexp 或 RE。正则表达式是使用单个字符串来描述、匹配一系列符合某个句法规则的字符串，简单来说，是一种匹配字符串的方法，通过一些特殊符号，实现快速查找、删除、替换某个特定字符串。
正则表达式是由普通字符与元字符组成的文字模式。模式用于描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。其中普通字符包括大小写字母、数字、标点符号及一些其他符号，元字符则是指那些在正则表达式中具有特殊意义的专用字符，可以用来规定其前导字符（即位于元字符前面的字符）在目标对象中的出现模式。
正则表达式一般用于脚本编程与文本编辑器中。很多文本处理器与程序设计语言均支持正则表达式，如Linux 系统中常见的文本处理器（grep、egrep、sed、awk）。正则表达式具备很强大的文本匹配功能，能够在文本海洋中快速高效地处理文本。

1.2：正则表达式用途

正则表达式对于系统管理员来说是非常重要的，系统运行过程中会产生大量的信息，这些信息有些是非常重要的，有些则仅是告知的信息。身为系统管理员如果直接看这么多的信息数据，无法快速定位到重要的信息，如“用户账号登录失败”“服务启动失败”等信息。这时可以通过正则表达式快速提取“有问题”的信息。

1.3：基础正则表达式

正则表达式的字符串表达方法根据不同的严谨程度与功能分为基本正则表达式与扩展正则表达式
基础正则表达式是常用的正则表达式的最基础的部分，在 Linux 系统中常见的文件处理工具中 grep 与 sed 支持基础正则表达式
而 egrep 与 awk 支持扩展正则表达式

1.4：基础正则表达式：grep命令

1.4.1：查找特定字符

“-n”表示显示行号
“-i”表示不区分大小写
命令执行后，符合匹配标准的字符，字体颜色会变为红色

从 /etc/passwd文件中查找出特定字符“the” 所在位置

[root@shell ~]# grep -n 'the' /etc/passwd
31:tss:x:59:59:Account used by the trousers package to sandbox the tcsd daemon:/dev/null:/sbin/nologin

从 /etc/passwd文件中查找出特定字符“Root” 所在位置，不区分大小写

[root@shell ~]# grep -in 'Root' /etc/passwd
1:root:x:0:0:root:/root:/bin/bash
10:operator:x:11:0:operator:/root:/sbin/nologin

反向选择，如查找不包含“the”字符的行

[root@shell ~]# grep -vn 'root' /etc/passwd
2:bin:x:1:1:bin:/bin:/sbin/nologin
3:daemon:x:2:2:daemon:/sbin:/sbin/nologin
4:adm:x:3:4:adm:/var/adm:/sbin/nologin
5:lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
6:sync:x:5:0:sync:/sbin:/bin/sync
7:shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
8:halt:x:7:0:halt:/sbin:/sbin/halt
9:mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
11:games:x:12:100:games:/usr/games:/sbin/nologin

1.4.2：利用中括号“[]”来查找集合字符

想要查找“shirt”与“short”这两个字符串时，可以发现这两个字符串均包含“sh” 与“rt”
“[]”中无论有几个字符，都仅代表一个字符，也就是说“[io]”表示匹配“i”或者“o”

同时查找到“shirt”与“short”这两个字符串

[root@shell ~]# cat test.txt 
he was short and fat.
He was wearing a blue polo shirt with black pants. The home of Football on BBC Sport online.
the tongue is boneless but it breaks bones.12! google is the best tools for search keyword.
The year ahead will test our political establishment to the limit.
PI=3.141592653589793238462643383249901429
a wood cross!
Actions speak louder than words


#woood # #woooooood # AxyzxyzxyzxyzC
I bet this place is really spooky late at night! Misfortunes never come alone/single.

I shouldn't have lett so tast.
123oo

[root@shell ~]# grep -n 'sh[io]rt' test.txt
1:he was short and fat.
2:He was wearing a blue polo shirt with black pants. The home of Football on BBC Sport online.

查找包含重复单个字符“oo”

[root@shell ~]# grep -n 'oo' test.txt 
2:He was wearing a blue polo shirt with black pants. The home of Football on BBC Sport online.
3:the tongue is boneless but it breaks bones.12! google is the best tools for search keyword.
6:a wood cross!
10:#woood # #woooooood # AxyzxyzxyzxyzC
11:I bet this place is really spooky late at night! Misfortunes never come alone/single.

集合字符的反向选择可以通过“[^]”实现

在文本中查找“oo” 前面不是“w”的字符串

[root@shell ~]# grep -n '[^w]oo' test.txt 
2:He was wearing a blue polo shirt with black pants. The home of Football on BBC Sport online.
3:the tongue is boneless but it breaks bones.12! google is the best tols for search keyword.
10:#woood # #woooooood # AxyzxyzxyzxyzC
11:I bet this place is really spooky late at night! Misfortunes never come alone/single.

查找以…开头的,可以通过“^[]”实现,注意尖角号在中括号的里面和外面表示不一样的意思

  ^[abc]  表示以abc开头

  [^abc]  表示取反,查找不是abc的

[root@shell ~]# grep -n '^[#woo]' test.txt 
10:#woood # #woooooood # AxyzxyzxyzxyzC

检索“oo”前面不存在大小写字母的字符串

[root@shell ~]# grep -n '[^a-zA-Z]oo' test.txt 
14:123oo

查找包含数字的行

[root@shell ~]# grep -n '[0-9]' test.txt 
3:the tongue is boneless but it breaks bones.12! google is the best tools for search keyword.
5:PI=3.141592653589793238462643383249901429
14:123oo

注意:此处勿与下文混淆

'匹配不是0-9数字的字符行全显示'
[root@shell ~]# grep -n '[^0-9]' test.txt 
1:he was short and fat.
2:He was wearing a blue polo shirt with black pants. The home of Footbll on BBC Sport online.
3:the tongue is boneless but it breaks bones.12! google is the best tols for search keyword.
4:The year ahead will test our political establishment to the limit.
5:PI=3.141592653589793238462643383249901429
6:a wood cross!
7:Actions speak louder than words
10:#woood # #woooooood # AxyzxyzxyzxyzC
11:I bet this place is really spooky late at night! Misfortunes never ome alone/single.
13:I shouldn't have lett so tast.
14:123oo

'匹配到0-9的行都不输出,过滤有数字的行' 
[root@shell ~]# grep -nv '[0-9]' test.txt 
1:he was short and fat.
2:He was wearing a blue polo shirt with black pants. The home of Football on BBC Sport online.
4:The year ahead will test our political establishment to the limit.
6:a wood cross!
7:Actions speak louder than words
8:
9:
10:#woood # #woooooood # AxyzxyzxyzxyzC
11:I bet this place is really spooky late at night! Misfortunes never come alone/single.
12:
13:I shouldn't have lett so tast.

1.4.3：查找行首“^”与行尾字符“$

基础正则表达式包含两个定位元字符：“^”（行首）与“$”（行尾）
“^”符号在元字符集合“[]”符号内外的作用是不一样的，在“[]”符号内表示反向选择，在“[]”符号外则代表定位行首
若想查找以某一特定字符结尾的行则可以使用“$”定位符

查询以“the”字符串为行首的行

[root@shell ~]# grep -n '^root' /etc/passwd
1:root:x:0:0:root:/root:/bin/bash

[root@shell ~]# grep -n '[0-9]$' httpd.conf 
41:#Listen 12.34.56.78:80
42:Listen 80
95:ServerName www.kgc.com:80
316:AddDefaultCharset UTF-8

查询不以字母开头的行

[root@shell ~]# grep '^[^a-zA-Z]' test.txt 
#woood # #woooooood # AxyzxyzxyzxyzC
123oo
123456
222222

查询以小数点（.）结尾的行

[root@shell ~]# grep '\.$' test.txt 
he was short and fat.
He was wearing a blue polo shirt with black pants. The home of Football on BBC Sport online.
the tongue is boneless but it breaks bones.12! google is the best tools for search keyword.
The year ahead will test our political establishment to the limit.
I bet this place is really spooky late at night! Misfortunes never come alone/single.
I shouldn't have lett so tast.

小数点（.）在正则表达式中也是一个元字符（后面会讲到），所以在这里需要用转义字符“\”将具有特殊意义的字符转化成普通字符

查询空白行

[root@shell ~]# grep '^$' test.txt

1.4.4:查找任意一个字符“.”与重复字符“*”

在正则表达式中小数点（.）也是一个元字符，代表任意一个字符

查找以 w 开头 d 结尾,共有四个字符的字符串

[root@shell ~]# grep 'w..d' test.txt 
the tongue is boneless but it breaks bones.12! google is the best tools for search keyword.
a wood cross!
Actions speak louder than words

若想要查询 wood、woood、woooood 等资料，则需要使用星号（*）元字符
“*”代表的是重复零个或多个前面的单字符
“o*”表示拥有零个（即为空字符）或大于等于一个“o”的字符
```
[root@shell ~]# grep –n 'o*' test.txt 'o的数量是0到多个';'全文查看'
```

“oo*”，则第一个 o 必须存在，第二个 o 则是零个或多个 o,所以凡是包含 o、oo、ooo、ooo，等的资料都符合标准

[root@shell ~]# grep -n 'oo*' test.txt   'o的数量是1到多个'
1:he was short and fat.
2:He was wearing a blue polo shirt with black pants. The home of Football on BBC Sport online.
3:the tongue is boneless but it breaks bones.12! google is the best tols for search keyword.
4:The year ahead will test our political establishment to the limit.
6:a wood cross!
7:Actions speak louder than words
10:#woood # #woooooood # AxyzxyzxyzxyzC
11:I bet this place is really spooky late at night! Misfortunes never ome alone/single.
13:I shouldn't have lett so tast.
14:123oo

查询包含至少两个 o 以上的字符串

[root@shell ~]# grep -n 'ooo*' test.txt    'o的数量是2到多个'
2:He was wearing a blue polo shirt with black pants. The home of Football on BBC Sport online.
3:the tongue is boneless but it breaks bones.12! google is the best tols for search keyword.
6:a wood cross!
10:#woood # #woooooood # AxyzxyzxyzxyzC
11:I bet this place is really spooky late at night! Misfortunes never come alone/single.
14:123oo

查询以 w 开头 d 结尾，中间包含至少一个 o 的字符串
```
[root@shell ~]# grep –n'woo*d' test.txt
```

查询以 w 开头 d 结尾，中间的字符可有可无的字符串

[root@shell ~]# grep '^w.*d$' test.txt 
w123d
[root@shell ~]# grep '^w.*d' test.txt 
w123d123
w123d

查询任意数字所在行

[root@localhost ~]# grep –n'[0-9][0-9]*' /etc/passwd

如果*前面不加字符,就表示匹配普通字符

[root@shell ~]# grep -n '*' httpd.conf 
15:# server will use that explicit path.  If the filenames do *not* begin
56:Include conf.modules.d/*.conf

1.4.5:查找前面连续字符范围“{}”

因为“{}”在 Shell 中具有特殊意义，所以在使用“{}”字符时，需要利用转义字符“\”，将“{}”字符转换成普通字符
总结: 中括号表示集合,大括号表示次数

查询两个 o 的字符

[root@shell ~]# grep -n 'o\{2\}' test.txt 
2:He was wearing a blue polo shirt with black pants. The home of Football on BBC Sport online.
3:the tongue is boneless but it breaks bones.12! google is the best tols for search keyword.
6:a wood cross!
10:#woood # #woooooood # AxyzxyzxyzxyzC
11:I bet this place is really spooky late at night! Misfortunes never come alone/single.
14:123oo

查询以 w 开头以 d 结尾，中间包含 3～5 个 o 的字符串

先匹配满5个,还有o,再从3-5开始匹配第二轮
```
[root@shell ~]# grep -n 'o\{3,5\}' test.txt 
10:#woood # #woooooood # AxyzxyzxyzxyzC
```

查询以 w 开头以 d 结尾，中间包含 3 以上 o 的字符串

[root@shell ~]# grep -n 'o\{3,\}' test.txt 
10:#woood # #woooooood # AxyzxyzxyzxyzC

1.5：元字符总结

元字符	作用
^	匹配输入字符串的开始位置。除非在方括号表达式中使用，表示不包含该字符集合。要匹配“”字符本身，请使用“”
$	匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性，则“KaTeX parse error: Undefined control sequence: \n at position 6: ”也匹配‘\̲n̲’或‘\r’。要匹配“”字符本身，请使用"\ $"
.	匹配除“\r\n”之外的任何单个字符
\	将下一个字符标记为特殊字符、原义字符、向后引用、八进制转义符。例如，‘n’匹配字符“n”。 ‘\n’匹配换行符。序列‘\ \’匹配“\”，而‘\ (’则匹配“(”
*	匹配前面的子表达式零次或多次。要匹配“”字符，请使用“\ ”
[]	字符集合。匹配所包含的任意一个字符。例如，“[abc]”可以匹配“plain”中的“a”
[^]	赋值字符集合。匹配未包含的一个任意字符。例如，“[ ^abc ] ”可以匹配“plain”中“plin”中的任何一个字母
[n1-n2]	字符范围。匹配指定范围内的任意一个字符。例如，“[a-z]”可以匹配“a”到“z”范围内的任意一个小写字母字符。注意：只有连字符（-）在字符组内部，并且出现在两个字符之间时，才能表示字符的范围；如果出现在字符组的开头，则只能表示连字符本身
{n}	n 是一个非负整数，匹配确定的 n 次。例如，“o\ {2\ }”不能匹配“Bob”中的“o”，但是能匹配“food”中的两个 o
{n,}	n 是一个非负整数，至少匹配 n 次。例如，“o\ {2,\ }”不能匹配“Bob”中的“o”，但能匹配“foooood”中的所有 o。“o\ {1,\ }”等价于“o+”。“o\ {0,\ }”则等价于“o*”
{n,m}	m 和n 均为非负整数，其中 n<=m，最少匹配 n 次且最多匹配 m 次

总结:{} 用于表示前一个字符出现的次数

{n,p} 用于输出偶数行(行数)

[] 表示集合,集合里取一个进行匹配

二：扩展正则表达式

2.1：扩展正则表达式概述：egrep命令

通常情况下会使用基础正则表达式就已经足够了，但有时为了简化整个指令，需要使用范围更广的扩展正则表达式。
例如，使用基础正则表达式查询除文件中空白行与行首为“#” 之外的行（通常用于查看生效的配置文件）
```
执行
grep –v '^$' test.txt | grep –v '^#'
```
使用扩展正则表达式
```
egrep –v '^$|^#' test.txt		'单引号内的管道符号表示或者（or）'
```
此外，grep 命令仅支持基础正则表达式，如果使用扩展正则表达式，需要使用 egrep 或 awk 命令
egrep 命令与 grep 命令的用法基本相似。egrep 命令是一个搜索文件获得模式，使用该命令可以搜索文件中的任意字符串和符号，也可以搜索一个或多个文件的字符串，一个提示符可以是单个字符、一个字符串、一个字或一个句子

2.2：扩展正则表达式常见元字符

元字符	作用与示例
+	作用：重复一个或者一个以上的前一个字符示例：执行“egrep -n ‘wo+d’ test.txt”命令，即可查询"wood" “woood” "woooooood"等字符串
？	作用：零个或者一个的前一个字符示例：执行“egrep -n ‘bes?t’ test.txt”命令，即可查询“bet”“best”这两个字符串
\|	作用：使用或者（or）的方式找出多个字符示例：执行“egrep -n ‘of\|is\|on’ test.txt“ 命令即可查询"of"或者"if"或者"on"字符串
()	作用：查找“组”字符串示例：“egrep -n ‘t(a\|e)st’ test.txt”。“tast”与“test”因为这两个单词的“t”与“st”是重复的，所以将“a”与“e”列于“()”符号当中，并以“\|”分隔，即可查询"tast"或者"test"字符串
()+	作用：辨别多个重复的组示例：“egrep -n ‘A(xyz)+C’ test.txt”。该命令是查询开头的"A"结尾是"C"，中间有一个以上的 "xyz"字符串的意思

[root@shell ~]# egrep -n 'wo+d' test.txt 
6:a wood cross!
10:#woood # #woooooood # AxyzxyzxyzxyzC
[root@shell ~]# grep -n 'woo*d' test.txt 
6:a wood cross!
10:#woood # #woooooood # AxyzxyzxyzxyzC

'在测试文件末行添加wd wod'
[root@shell ~]# egrep -n 'wo?d' test.txt 
19:wd
20:wod
[root@shell ~]# egrep -n 'woo?d' test.txt 
6:a wood cross!
20:wod
[root@shell ~]# grep -n 'wo\{0,1\}d' test.txt 
19:wd
20:wod

[root@shell ~]# egrep -n 'th(i|e)s' test.txt 
11:I bet this place is really spooky late at night! Misfortunes never come alone/single.

[root@shell ~]# egrep -n 'A(xyz)+C' test.txt 
10:#woood # #woooooood # AxyzxyzxyzxyzC
22:AxyzC
23:AxyzxyzC
[root@shell ~]# egrep -n 'A(xyz)*C' test.txt 
10:#woood # #woooooood # AxyzxyzxyzxyzC
21:AC
22:AxyzC
23:AxyzxyzC

2.3：正则表达式总结

grep命令都可以使用egrep实现

！！！特殊情况：

grep ‘o\ {2\ }’ /etc/passwd # 特殊符号需要用脱意符号\，不然无法识别

egrep ‘o{2}’ /etc/passwd # 用egrep命令，不需要脱意，｛｝表示前边字符的重复范围

grep命令

命令基本格式
grep -cinvABC 'word' filename
-c '行数'

-i '不区分大小写'

-n '显示行号'

-v '取反'

-r '遍历所有子目录'

-A '后面跟数字，过滤出符合要求的行以及下面n行'

-B '同上，过滤出符合要求的行以及上面n行'

-C '同上，同时过滤出符合要求的行以及上下各n行'

三：文本处理器

在 Linux/UNIX 系统中包含很多种文本处理器或文本编辑器,其中包括我们之前学习过的VIM 编辑器与 grep 等。
而 grep，sed，awk 更是 shell 编程中经常用到的文本处理工具，被称之为 Shell 编程三剑客。

四：sed工具使用方法

4.1：sed工具概述

sed（Stream EDitor）是一个强大而简单的文本解析转换工具，可以读取文本，并根据指定的条件对文本内容进行编辑（删除、替换、添加、移动等），最后输出所有行或者仅输出处理的某些行。
sed 也可以在无交互的情况下实现相当复杂的文本处理操作，被广泛应用于 Shell 脚本中，用以完成各种自动化处理任务。

4.2：sed的工作流程

读取——》执行——》显示三个过程
在所有的文件内容都被处理完成之前，上述过程将重复执行，直至所有内容被处理完
默认情况下,所有的 sed 命令都是在模式空间内执行的，因此输入的文件并不会发生任何变化，除非是用重定向存储输出

4.2.1：读取

sed 从输入流（文件、管道、标准输入）中读取一行内容并存储到临时的缓冲区中（又称模式空间，pattern space）。

4.2.2：执行

默认情况下，所有的 sed 命令都在模式空间中顺序地执行，除非指定了行的地址，否则 sed 命令将会在所有的行上依次执行

4.2.3：显示

发送修改后的内容到输出流。再发送数据后，模式空间将会被清空。

注意：默认情况下所有的 sed 命令都是在模式空间内执行的，因此输入的文件并不会发生任何变化，除非是用重定向存储输出。

4.3：sed命令常见方法

通常情况下调用 sed 命令有两种格式
```
sed[选项] '操作' 参数
sed [选项] -f scriptfile 参数
```
其中，“参数”是指操作的目标文件，当存在多个操作对象时用，文件之间用逗号“，”分隔；

而 scriptfile 表示脚本文件，需要用“-f”选项指定，当脚本文件出现在目标文件之前时，表示通过指定的脚本文件来处理输入的目标文件

4.3.1：常见的sed命令选项

选项	解释
-e 或–expression=	表示用指定-e命令1 -e命令2,只能修改同一行内容或者脚本来处理输入的文本文件
-f 或–file=	表示用指定的脚本文件来处理输入的文本文件
-h 或–help	显示帮助
-n、–quiet 或 silent	表示仅显示处理后的结果
-i	直接编辑文本文件，直接编辑源文件

sed -i 直接修改源文件慎用,改之前要先备份

4.3.2：常见的操作

“操作”用于指定对文件操作的动作行为，也就是 sed 的命令
通常情况下是采用的[n1[,n2]]”操作参数的格式。n1、n2 是可选的，不一定会存在，代表选择进行操作的行数
如操作需要在 5～20 行之间进行，则表示为“5，20 动作行为

操作(在单引号内)	解释
a	增加，在当前行下面增加一行指定内容
c	替换，将选定行替换为指定内容,整行替换
d	删除，删除选定的行
i	插入，在选定行上面插入一行指定内容
p	打印，如果同时指定行，表示打印指定行；如果不指定行，则表示打印所有内容；如果有非打印字符，则以 ASCII 码输出。其通常与“-n”选项一起使用
s	替换，替换指定字符
y	字符转换

4.4：用法示例

[root@shell ~]# vim test02.txt

1
2
3
4
5
6
7
8
9
10
aaa
bbb
ccc

4.4.1：输出符合条件的文本（p 表示正常输出）

[root@shell ~]# sed -n 'p' test02.txt '输出所有内容,等同于 cat test.txt'
1
2
3
4
5
6
7
8
9
10
aaa
bbb
ccc

[root@shell ~]# sed -n '3p' test02.txt  '输出第 3 行'
3
[root@shell ~]# sed -n '3,5p' test02.txt  '输出第 3~5 行'
3
4
5

[root@shell ~]# sed -n 'p,n' test02.txt            '注意是分号'
sed：-e 表达式 #1，字符 2：命令后含有多余的字符
[root@shell ~]# sed -n 'p;n' test02.txt   '输出奇数行,p输出,n表示读入下一行资料'
1
3
5
7
9
aaa
ccc
[root@shell ~]# sed -n 'n;p' test02.txt  '输出偶数行,p输出,n表示读入下一行资料'
2
4
6
8
10
bbb

[root@shell ~]# sed -n '1,5{n;p}' test02.txt '输出第 1~5 行之间的奇数行(第 1、3、5 行)' 
2
4
6
[root@shell ~]# sed -n '10,${p;n}' test02.txt '输出第 10 行至文件尾之间的奇数行'
10
bbb

在执行“sed –n ‘10,${n;p}’ test02.txt”命令时，读取的第 1 行是文件的第 10 行，读取的第 2 行是文件的第 11 行，依此类推，所以输出的奇数行是文件的第 10 行、12 行直至文件结尾，其中包括空行。
注意相对性,是相对前面的起始行为第一行

读的话中括号里面{n;p}成对执行输出多输出一个aaa,活干一半,要执行完

[root@shell ~]# sed -n '2,10{p;n}' test02.txt 
2
4
6
8
10
[root@shell ~]# sed -n '2,10{n;p}' test02.txt 
3
5
7
9
aaa    'aaa属于第11行,但是也输出了,第到10行,n读入下一行,虽然下一行是11行,但是也输出'
注意{}里面输出奇偶行用的是分号

4.4.2:sed 命令与正则表达式结合使用

sed 命令结合正则表达式时，格式略有不同，正则表达式以“/”包围;/abc/表示匹配abc

[root@shell ~]# sed -n '/the/p' test02.txt '输出包含the 的行'
the
the aaa

[root@shell ~]# sed -n '4,/the/p' test02.txt  '输出从第 4 行至第一个包含 the 的行'
4
5
6
7
8
9
10
the

[root@shell ~]# sed -n '/the/=' test02.txt '输出包含the 的行所在的行号,等号(=)用来输出行号'
11
13

[root@shell ~]# sed -n '/^PI/p' test.txt  '输出以PI 开头的行'
PI=3.141592653589793238462643383249901429
[root@shell ~]# sed -n '/^PI/=' test.txt 
5
[root@shell ~]# sed -n '/[0-9]$/p' test.txt '输出数字结尾的行'
PI=3.141592653589793238462643383249901429
123456
222222
w123d123

[root@shell ~]# sed -n '/\<wood\>/p' test.txt'输出包含单词wood 的行,\<、\>代表单词边界'
a wood cross!
注意是单词,如果是woods则不显示

4.5删除符合条件的文本

下面命令中 nl 命令用于计算文件的行数，结合该命令可以更加直观地查看到命令执行的结果

[root@shell ~]# nl test.txt | sed '3,5d'  '删除第 3~5 行'
     1	he was short and fat.
     2	He was wearing a blue polo shirt with black pants. The home of Football on BBC Sport online.
     6	a wood cross!
[root@shell ~]# nl test.txt | sed '3d'   '删除第 3 行'
     1	he was short and fat.
     2	He was wearing a blue polo shirt with black pants. The home of Football on BBC Sport online.
     4	The year ahead will test our political establishment to the limit.

[root@shell ~]# nl test.txt | sed '/cross/d'     '删除cross所在的行
[root@shell ~]# nl test.txt | sed '/cross/!d'    '删除不包含cross的行'
     6	a wood cross!

[root@shell ~]# sed '/\.$/d' test02.txt      '删除以.结尾的行'
[root@shell ~]# sed '/^$/d' test.txt          '删除空行'
[root@shell ~]# sed -e '/^$/{n;/^$/d}' test.txt  '删除重复的空行，即连续的空行只保留一个,效果与“cat -s test.txt”相同，n 表示读下一行数据'

4.6：替换符合条件的文本

使用 sed 命令进行替换操作时需要用到 s（字符串替换）、c（整行/整块替换）、y（字符转换）命令选项

s/old/new/

g表示global全局全文的意思

/^/表示行首

/$/表示行尾

s///g 全局

s///n 表示第n个字符替换

‘3,5s///g’ 对3-5行做替换

sed 's/the/THE/' test.txt	'将每行中的第一个the 替换为 THE '
sed 's/l/L/2' test.txt	'将每行中的第 2 个l 替换为L '
sed 's/the/THE/g' test.txt	'将文件中的所有the 替换为THE'
sed 's/o//g' test.txt	'将文件中的所有o 删除(替换为空串)'
sed 's/^/#/' test.txt	'在每行行首插入#号'
sed '/the/s/^/#/' test.txt		'在包含the 的每行行首插入#号'
sed 's/$/EOF/' test.txt		'在每行行尾插入字符串EOF'
sed '3,5s/the/THE/g' test.txt	'将第 3~5 行中的所有the 替换为 THE'
sed '/the/s/o/O/g' test.txt	'将包含the 的所有行中的o 都替换为 O'

[root@shell ~]# sed '2,5c123' test02.txt     '把2-5行整行替换为123'
1
123
6
7
8
9
10
the
aaa
the aaa
bbb.
ccc
ccc..
[root@shell ~]# sed '2c123' test02.txt     '把第二行换成123'
1
123
3
4
5
6
7
8
9
10
the

4.7：迁移符合条件的文本

其中，H，复制到剪贴板；g、G，将剪贴板中的数据覆盖/追加至指定行；w，保存为文件；r，读取指定文件；a，追加指定内容

{;}用于多个操作

sed '/the/{H;d};$G' test.txt	'将包含the 的行迁移至文件末尾,{;}用于多个操作 ,d把原来的内容删除'
sed '1,5{H;d};11G' test.txt	'将第 1~5 行内容转移至第 11 行后'
sed '/the/w out.file' test.txt	'将包含the 的行另存为文件out.file '
sed '/the/r /etc/hostname' test.txt	'将文件/etc/hostname 的内容添加到包含the 的每行以后'
sed '3aNew' test.txt		'在第 3 行后插入一个新行,内容为 New '
sed '/the/aNew' test.txt	'在包含the 的每行后插入一个新行,内容为 New' 
sed '3aNew1\nNew2' test.txt	'在第 3 行后插入多行内容,中间的\n 表示换行'

'把匹配到the的行,先复制,再删除,粘贴到行尾,等于迁移'
[root@shell ~]# sed '/the/{H;d};$G' test02.txt 
1
2
3
4
5
6
7
8
9
10
aaa
bbb.
ccc
ccc..

the
the aaa

'把1-5行的内容迁移到11行之后'
[root@shell ~]# sed '1,5{H;d};11G' test02.txt 
6
7
8
9
10
the

1
2
3
4
5
aaa
the aaa
bbb.
ccc
ccc..

'把匹配到the的行保存到out.file文件里'
[root@shell ~]# sed '/the/w out.file' test02.txt 
[root@shell ~]# cat out.file 
the
the aaa

'把hostname文件内容,调价到the所在行的下方'
[root@shell ~]# sed '/the/r /etc/hostname' test02.txt
1
2
3
4
5
6
7
8
9
10
the
shell
aaa
the aaa
shell
bbb.
ccc
ccc..

'把第三行后添加NEW'
[root@shell ~]# sed '3aNEW' test02.txt 
1
2
3
NEW
4
5
6
.....

'把包含the的行后面添加NEW'
[root@shell ~]# sed '/the/aNEW' test02.txt 
1
2
3
4
5
6
7
8
9
10
the
NEW
aaa
the aaa
NEW
bbb.
ccc
ccc..

'把第三行后添加多行内容,\n表示换行'
[root@shell ~]# sed '3aNEW1\nNEW2' test02.txt 
1
2
3
NEW1
NEW2
4
5

4.8：使用脚本编辑文件

使用 sed 脚本，将多个编辑指令存放到文件中（每行一条编辑指令），通过“-f”选项来调用

sed '1,5{H;d};11G' test.txt	'将第 1~5 行内容转移至第 11 行后'
'以上操作可以改用脚本文件方式：'
[root@shell ~]# vi opt.list		'编辑指令放到/opt.list中'
1,5H
1,5d
11G
[root@shell ~]# sed -f opt.list test.txt '使用opt.list文件指令编辑test.txt文件'

[root@shell ~]# vim opt.list

1,5H
1,5d
11G


[root@shell ~]# sed -f opt.list test02.txt 
6
7
8
9
10
the

1
2
3
4
5
aaa
the aaa
bbb.
ccchan
ccc..

4.9： sed 直接操作文件示例

编写一个脚本，用来调整 vsftpd 服务配置：禁止匿名用户，但允许本地用户（也允许写入）

[root@shell ~]# vim local_only_ftp.sh
#!/bin/bash
# 指定样本文件路径、配置文件路径
SAMPLE="/usr/share/doc/vsftpd-3.0.2/EXAMPLE/INTERNET_SITE/vsftpd.conf " CONFIG="/etc/vsftpd/vsftpd.conf"
# 备份原来的配置文件,检测文件名为/etc/vsftpd/vsftpd.conf.bak 备份文件是否存在, 若不存在则使用 cp 命令进行文件备份
[ ! -e "$CONFIG.bak" ] && cp $CONFIG $CONFIG.bak # 基于样本配置进行调整,覆盖现有文件
sed -e '/^anonymous_enable/s/YES/NO/g' $SAMPLE > $CONFIG

sed -i -e '/^local_enable/s/NO/YES/g' -e '/^write_enable/s/NO/YES/g' $CONFIG grep "listen" $CONFIG || sed -i '$alisten=YES' $CONFIG
# 启动vsftpd 服务,并设为开机后自动运行
systemctl restart vsftpd systemctl enable vsftpd
[root@localhost ~]# chmod +x local_only_ftp.sh

4.10:sed总结

sed工具除了调用文件或脚本执行命令，否则命令都需要加上’'符号

即：调用 sed 命令有两种格式
```
sed[选项] '操作' 参数
sed [选项] -f scriptfile 参数
```
其中，“参数”是指操作的目标文件，当存在多个操作对象时用，文件之间用逗号“，”分隔；

而 scriptfile 表示脚本文件，需要用“-f”选项指定，当脚本文件出现在目标文件之前时，表示通过指定的脚本文件来处理输入的目标文件
-n选项在符合条件输出和结合正则表达式的时候使用
{}用于奇数行和偶数行的筛选或者奇数行和偶数号的其他操作
sed 命令结合正则表达式时，格式略有不同，正则表达式以“/”包围
使用sed删除命令时，nl 命令用于计算文件的行数，结合该命令可以更加直观地查看到命令执行的结果，而不使用-n

五：awk工具使用方法

在 Linux/UNIX 系统中，awk 是一个功能强大的编辑工具，逐行读取输入文本，并根据指定的匹配模式进行查找，对符合条件的内容进行格式化输出或者过滤处理，可以在无交互的情况下实现相当复杂的文本操作，被广泛应用于 Shell 脚本，完成各种自动化配置任务

5.1：awk常见用法

通常情况下 awk 所使用的命令格式为
```
awk 选项 '模式或条件 {编辑指令}' 文件 1 文件 2 „	'过滤并输出文件符条件的内容'
awk -f 脚本文件 文件 1 文件 2 „	'从脚本中调用编辑指令,过滤并输出内容'
```
其中，单引号加上大括号“{}”用于设置对数据进行的处理动作

awk 可以直接处理目标文件，也可以通过“-f”读取脚本对目标文件进行处理
sed 命令常用于一整行的处理,而 awk 比较倾向于将一行分成多个“字段”然后再进行处理，且默认情况下字段的分隔符为空格或者 tab 键,awk 执行结果可以通过 print 的功能将字段数据打印显示
在使用 awk 命令的过程中,可以使用逻辑操作符“&&”，表示“与”， “||”表示“或”，“！”表示“非”；还可以进行简单的数学运算，如+、-、*、/、%、^分别表示加、减、乘、除、取余和乘方

[root@localhost ~]# awk -F ':' '{print $1,$3,$4}' /etc/passwd  '查看/etc/passwd的用户名（$1），用户ID($3)，组ID等列($4)'
$1,$3,$4之间用逗号隔开，输出的内容会有空格间隔
若$1 $3 $4之间不用逗号隔开，则输出的内容不会有空格间隔，会连在一起

awk 从输入文件或者标准输入中读入信息，与 sed 一样，信息的读入也是逐行读取的。

不同的是 awk 将文本文件中的一行视为一个记录，而将一行中的某一部分（列）作为记录中的一个字段（域）
```
为了操作这些不同的字段，awk 借用 shell 中类似于位置变量的方法， 用$1、$2、$3„顺序地表示行（记录）中的不同字段。另外 awk 用$0 表示整个行（记录）
```
不同的字段之间是通过指定的字符分隔

awk 默认的分隔符是空格

awk 允许在命令行中用“-F 分隔符”的形式来指定分隔符

5.2:awk 包含的几个特殊的内建变量（可直接用）

变量	解释
FS	指定每行文本的字段分隔符，默认为空格或制表位（tab）
NF (field)	当前处理的行的字段个数
NR (number)	当前处理的行的行号（序数）
$0	当前处理的行的整行内容
$n	当前处理行的第 n 个字段（第 n 列）
FILENAME	被处理的文件名
RS (ROW)	数据记录分隔，默认为\n，即每行为一条记录（\n表示回车）

5.3：awk用法

5.3.1：按行输出文本

awk '{print}' test.txt 		'输出所有内容，等同于cat test.txt'
...省略内容
awk '{print $0}' test.txt 		'输出所有内容，等同于cat test.txt'
...省略内容
awk 'NR==1,NR==3{print}' test.txt 		'输出第1~3行内容'
...省略内容
awk '(NR>=1)&&(NR<=3){print}' test.txt 		'输出第1~3行内容'
...省略内容
awk 'NR==1||NR==3{print}' test.txt 		'输出1行，第3行内容'
...省略内容
awk '(NR%2)==1{print}' test.txt 		'输出所有奇数行内容'
...省略内容
awk '(NR%2)==0{print}' test.txt 		'输出所有偶数行内容'
...省略内容
awk '/^root/{print}' /etc/passwd 		'输出以root开头的行'
...省略内容
awk '/nologin$/{print}' /etc/passwd		'输出以 nologin 结尾的行'
...省略内容
awk 'BEGIN {x=0} ; /\/bin\/bash$/{x++};END {print x}' /etc/passwd  '统计以/bin/bash 结尾的行数,等同于 grep -c "/bin/bash$" /etc/passwd '
...省略内容
awk 'BEGIN{RS=""};END{print NR}' /etc/squid/squid.conf  	'统计以空行分隔的文本段落数'
...省略内容

[root@shell ~]# awk '{print $0}' test02.txt   '查看全部行,全文查看'
1
2
3
4
5
6
7
8
9
10
the
.........
[root@shell ~]# awk 'NR==1||NR==3{print $1}' test02.txt  '输出第一行和第三行'
1
333
[root@shell ~]# awk '(NR>=1)&&(NR<=3){print}' test02.txt 1 '输出第一行到第三行'
1
222
333
[root@shell ~]# awk 'NR==1,NR==3{print}' test02.txt   '输出第一行到第三行'
1
222
333
[root@shell ~]# awk '(NR%2)==1{print}' test02.txt  '查看奇数行'
1
333
555
7
9
the
the aaa
ccc
[root@shell ~]# awk '(NR%2)==0{print}' test02.txt   '查看偶数行'
222
444
6
8
10
aaa
bbb.
ccc..
[root@shell ~]# awk '/^root/{print}' /etc/passwd        '匹配以root开头的行'
root:x:0:0:root:/root:/bin/bash

[root@shell ~]# awk '/nologion$/{print}' /etc/passwd   '匹配以nologin结尾的行'
[root@shell ~]# awk '/nologin$/{print}' /etc/passwd
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin


'统计以/bin/bash 结尾的行数,等同于 grep -c "/bin/bash$" /etc/passwd '
[root@shell ~]# awk 'BEGIN {X=0};/\/bin\/bash$/{x++};END {print x}' /etc/passwd 
2

'统计以空行分隔的文本段落数'
[root@shell ~]# awk 'BEGIN {RS=""};END{print NR}' test02.txt 
3

5.3.2：按字段输出文本

awk '{print $3}' test.txt	'输出每行中(以空格或制表位分隔)的第 3 个字段'
...省略内容
awk '{print $1,$3}' test.txt	'输出每行中的第 1、3 个字段'
...省略内容
awk -F: '$2=="!!"{print}' /etc/shadow 	'输出密码为空的用户的shadow 记录'
...省略内容
awk 'BEGIN {FS=":"}; $2=="!!"{print}' /etc/shadow		'输出密码为空的用户的shadow 记录'
...省略内容
awk -F: '$7~"/bash"{print $1}' /etc/passwd		'输出以冒号分隔且第 7 个字段中包含/bash 的行的第 1 个字段'
...省略内容
awk '($1~"nfs")&&(NF==8){print $1,$2}' /etc/services	'输出包含 8 个字段且第 1 个字段中包含 nfs 的行的第 1、2 个字段'
...省略内容
awk -F: '($7!="/bin/bash")&&($7!="/sbin/nologin"){print}' /etc/passwd	'输出第 7 个字段既不为/bin/bash 也不为/sbin/nologin 的所有行'
...省略内容

[root@shell ~]# awk -F: '$2=="!!"{print}' /etc/shadow  '查找密码为空的用户记录'
systemd-network:!!:18445::::::
dbus:!!:18445::::::
polkitd:!!:18445::::::
libstoragemgmt:!!:18445::::::
[root@shell ~]# awk -F: '$7~"/bash"{print $1}' /etc/passwd '输出以冒号分隔且第 7 个字段中包含/bash 的行的第 1 个字段'
root
ljz
[root@shell ~]# awk '($1~"nfs")&&(NF==8){print $1,$2}' /etc/services '输出包含 8 个字段且第 1 个字段中包含 nfs 的行的第 1、2 个字段'
nfs 2049/tcp
nfs 2049/udp
nfs 2049/sctp
netconfsoaphttp 832/tcp
netconfsoaphttp 832/udp
netconfsoapbeep 833/tcp
netconfsoapbeep 833/udp
[root@shell ~]# awk -F: '($7!="/bin/bash")&&($7!="/sbin/nologin"){print}' /etc/passwd
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt

5.3.3：通过管道、双引号调用 Shell 命令

操作命令放在{}中
管道符号前面的命令输出的内容交给管道符号后面的命令处理
结合正则表达式，正则表达式同样要被/包围
调用的shell命令需要用""引起来
{}中多个命令之间也能过；分隔

 awk -F: '/bash$/{print | "wc -l"}' /etc/passwd  '调用wc -l 命令统计使用bash 的用户个数,等同于 grep -c "bash$" /etc/passwd '
  ...省略内容
  awk 'BEGIN {while ("w" | getline) n++ ; {print n-2}}'  '调用w 命令,并用来统计在线用户数'
  ...省略内容
  awk -F.'BEGIN { "hostname" | getline ; print $1}'  '调用hostname,并输出当前的主机名''
  ...省略内容

5.4：awk命令总结

sed操作指令置于’'中，awk比sed多一个{}

sed[选项] '操作' 参数
awk 选项 '模式或条件 {编辑指令}' 文件 1 文件 2

w，who，whoami，who am i

w 显示已经登录的用户及正在进行的操作
who 显示已经登录的用户名、终端名称、登录时间及登录IP
whoami 显示当前用户的用户名
who am i 显示登录系统的时候的用户名，即使已经切换到其他用户也显示登录时的用户

一般输出关于段，列的信息使用awk，其他的使用sed或grep更加方便
awk输出的奇偶行都使用绝对路径

sed输出的奇偶行都使用相对路径
使用awk调用shell命令，统计数量时，n是个变量，可自定义

若没有定义n的初始值，则n=0
awk判断条件中双引号之间的内容，如果有特殊符号不需要使用转义符
FS在{}中间使用，F在{}外面使用

六：sort工具;uniq工具;tr工具

6.1：sort工具—排序

在 Linux 系统中，常用的文件排序工具有三种：sort、uniq、wc
sort 是一个以行为单位对文件内容进行排序的工具，也可以根据不同的数据类型来排序
sort 命令的语法
```
sort [选项] 参数
```

6.1.1：sort命令常用选项

选项	解释
-f	忽略大小写
-b	忽略每行前面的空格
-M	按照月份进行排序
-n	按照数字进行排序
-r	反向排序
-u	等同于 uniq，表示相同的数据仅显示一行
-t	指定分隔符，默认使用[Tab]键分隔
-o<输出文件>：	将排序后的结果转存至指定文件
-k	指定排序区域

6.1.2：sort命令示例

'将/etc/passwd 文件中的账号进行排序，根据行首字母顺序排序'
[root@shell ~]# sort /etc/passwd
...省略内容
'将/etc/passwd 文件中第三列进行反向排序，根据第三列第一个字符的顺序排序'
[root@shell ~]# sort -t ':' -rk 3 /etc/passwd 
...省略内容
'将/etc/passwd 文件中第三列进行排序，并将输出内容保存至user.txt 文件中'
[root@shell ~]# sort -t ':' -k 3 /etc/passwd -o user.txt 
[root@shell ~]# cat user.txt
...省略内容

6.2：uniq工具----去重

在 Linux 系统中，常用的文件排序工具有三种：sort、uniq、wc
sort 用于排序;uniq用于去重;
Uniq 工具在 Linux 系统中通常与 sort 命令结合使用，用于报告或者忽略文件中的重复行
具体的命令语法格式为
```
uniq [选项] 参数
```

6.2.1：uniq命令常用选项

选项	解释
-c	进行计数
-d	仅显示重复行
-u	仅显示出现一次的行

6.2.2：uniq命令示例

'删除 testfile 文件中的重复行'
[root@shell ~]# cat testfile	'testfile文件内容自行定义'
...省略内容
[root@shell ~]# uniq testfile 
...省略内容

'删除 testfile 文件中的重复行，并在行首显示该行重复出现的次数'
[root@shell ~]# uniq -c testfile 
...省略内容

'查找 testfile 文件中的重复行'
[root@shell ~]# uniq -d testfile 
...省略内容

6.3: tr工具----替换

tr 命令常用来对来自标准输入的字符进行替换、压缩和删除。可以将一组字符替换之后变成另一组字符，经常用来编写优美的单行命令，作用很强大。

tr 具体的命令语法格式为：
tr [选项] [参数]

-c	取代所有不属于第一字符集的字符
-d	删除所有属于第一字符集的字符
-s	把连续重复的字符以单独一个字符表示
-t	先删除第一字符集较第二字符集多出的字符

示例 1：将输入字符由大写转换为小写。
```
[root@shell ~]# echo "KGC" | tr 'A-Z' 'a-z'
kgc
```

示例 2：压缩输入中重复的字符

[root@shell ~]# echo "thissss is	a text linnnnnnne." | tr -s 'sn'
this is a text line.

示例 3：删除字符串中某些字符

[root@shell ~]# echo 'hello world' | tr -d 'od'
hell wrl

一往无前，未来可期

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Shell编程----正则表达式与三剑客

文章目录前言一：基础正则表达式1.1：正则表达式的定义1.2：正则表达式用途1.3：基础正则表达式1.4：基础正则表达式：grep命令1.4.1：查找特定字符1.4.2：利用中括号“[]”来查找集合字符1.4.3：查找行首“^”与行尾字符“$1.4.4:查找任意一个字符“.”与重复字符“*”1.4.5:查找前面连续字符范围“{}”1.5：元字符总结二：扩展正则表达式2.1：扩展正则表达式概述：egrep命令2.2：扩展正则表达式常见元字符2.3：正则表达式总结三：文本处理器四：sed工具使用方法4.1：se
复制链接

扫一扫