Shell正则表达式中的编程三剑客（grep、sed、awk）

最新推荐文章于 2023-07-11 17:02:26 发布

清风~

最新推荐文章于 2023-07-11 17:02:26 发布

阅读量409

点赞数 5

分类专栏： shell 运维脚本文章标签： shell 正则表达式脚本语言

本文链接：https://blog.csdn.net/Gengchenchen/article/details/111696524

版权

运维同时被 3 个专栏收录

87 篇文章 5 订阅

订阅专栏

shell

27 篇文章 0 订阅

订阅专栏

脚本

14 篇文章 0 订阅

订阅专栏

前言：

在 Linux/UNIX 系统中包含很多种文本处理器或文本编辑器，其中包括我们之前学习过的VIM 编辑器与 grep 等。
而 grep，sed，awk 更是 shell 编程中经常用到的文本处理工具，被称之为 Shell 编程三剑客。

一、sed编辑器

（一）、sed编辑器概述

sed是一种流编辑器，流编辑器会在编辑器处理数据之前基于预先提供的一组规则来编辑数据流。
sed编辑器可以根据命令来处理数据流中的数据，这些命令要么从命令行中输入，要么存储在一个命令文本文件中。

（二）、sed的工作流程主要包括读取、执行和显示三个过程:

读取：sed从输入流(文件、管道、标准输入)中读取一行内容并存储到临时的缓冲区中(又称模式空间, pattern space)
执行：默认情况下,所有的sed命令都在模式空间中顺序地执行,除非指定了行的地址,否则sed命令将会在所有的行上依次执行。
显示:发送修改后的内容到输出流。在发送数据后,模式空间将会被清空。在所有的文件内容都被处理完成之前,上述过程将重复执行直至所有内容被处理完。

在所有的文件内容都被处理完成之前,上述过程将重复执行,直至所有内容被处理完。
注意:默认情况下所有的sed命令都是在模式空间内执行的,因此输入的文件并不会发生任何变化,除非是用重定向存储输出。

（三）、命令格式:

格式1：sed  -e  ‘操作’  文件1 文件2 ......

格式2：sed  -n -e  '操作'   文件1  文件2 .......

格式3：sed  -f  脚本文件   文件1  文件2 .......

格式4：sed  -i  -e  '操作'  文件1  文件2.......

格式5:
sed  -e  ' n {
操作1 
操作2 
.......
}'  文件1  文件2......

（四）、常见的sed命令选项

选项	解释
-e 或–expression=	表示用指定命令来处理输入的文本文件,只有一个操作命令时可省略，一般在执行多个操作命令时使用
-f 或–file=	表示用指定的脚本文件来处理输入的文本文件
-h 或–help	显示帮助
-n、–quiet 或 silent	禁止sed编辑器输出，但可以与p命令一起使用完成输出
-i	直接修改目标文本文件
-r	表示支持正则表达式

（五）、常用操作

操作	解释
s	替换，替换指定字符
d	删除，删除选定的行
a	增加，在当前行下面增加一行指定内容
i	插入，在选定行上面插入一行指定内容
c	替换，将选定行替换为指定内容
y	字符转换，转换前后大的字符长度必须相同
p	打印，如果同时指定行，表示打印指定行；如果不指定行，则表示打印所有内容；如果有非打印字符，则以 ASCII 码输出。其通常与“-n”选项一起使用
=	打印行号
l (小写L)	打印数据流中的文本和不可打印的ASCII字符（比如结束符$，制表符\t）

（六）、操作示例：

1、打印文本内容

#首先创建如下的文本进行演示
[root@gcc zhengze1]#vim testfile1
one
two
three
four
five
six
seven
eight
nine
ten
eleven
twelve

（1）、打印内容

[root@gcc zhengze1]#sed -n -e 'p' testfile1   #-n和-p一起使用表示打印一次内容，如果不加-n，则打印两次内容
one
two
three
four
five
six
seven
eight
nine
ten
eleven
twelve

（2）、打印行号

[root@gcc zhengze1]#sed -n -e '=' testfile1       # -n -e '=' 是只打印行号
1
2
3
4
5
6
7
8
9
10
11
12

[root@gcc zhengze1]#sed -e '=' testfile1       #如果不加 -n 的话就是既打印出了行号也打印出了内容
[root@gcc zhengze1]#sed -n '=;p' testfile1     #结果和上面一样，既打印行号也打印内容
[root@gcc zhengze1]#sed -n -e '=' -e 'p' testfile1     #结果和上面一样，表示先打印行号再打印内容
[root@gcc zhengze1]#sed -n '               #该种方法用的少，但是也是表示先打印行号再打印内容             
=
p
' testfile1
#那么如果想要先打印内容再打印行号的话就可以先使用操作 'p' 再使用操作 '=' 就可以了
-----------------------------------------------------------------
1
one
2
two
3
three
4
four
5
five
6
six
7
seven
8
eight
9
nine
10
ten
11
eleven
12
twelve

（3）、打印ASCII字符

[root@gcc zhengze1]#sed -n -e 'l' testfile1      #加 -l 是打印ASCII字符
one$
two$
three$
four$
five$
six$
seven$
eight$
nine$
ten$
eleven$
twelve$

2、使用地址

sed编辑器有2种寻址方式：

以数字形式表示行区间
用文本模式来过滤出行

--------------------下面是以数字形式表示行区间的内容----------------------

[root@gcc zhengze1]#sed -n '1p' testfile1         #打印第一行的内容
one
[root@gcc zhengze1]#sed -n '$p' testfile1         #打印最后一行的内容
twelve
[root@gcc zhengze1]#sed -n '1,3p' testfile1       #打印1-3行的内容
one
two
three
[root@gcc zhengze1]#sed -n '3,$p' testfile1       #打印3到最后一行的内容
three
four
five
six
seven
eight
nine
ten
eleven
twelve
[root@gcc zhengze1]#sed -n '1,+3p' testfile1      #打印第一行带之后的三行，也就是1到4行的内容
one
two
three
four
[root@gcc zhengze1]#sed '5q' testfile1            #打印前5行之后退出，注意这里没有 -e 
one
two
three
four
five

[root@gcc zhengze1]#sed -n 'p;n' testfile1         #打印奇数行，意思是先使用p打印第一行，然后n的作用是跳一行之后打印出来，一直跳到最后
one
three
five
seven
nine
eleven
[root@gcc zhengze1]#sed -n 'n;p' testfile1         #打印偶数行，意思是从第一行开始就每次跳一行打印
two
four
six
eight
ten
[root@gcc zhengze1]#sed -n '2,${n;p}' testfile1     #该命令也表示打印奇数行
three
five
seven
nine
eleven

--------------------------------下面是用文本模式来过滤出行-------------------------------------

[root@gcc zhengze1]#sed -n '/user/p' /etc/passwd    #/user/表示过滤出带有user这个字符串的行，要记得加//，而且//中区分字母大小写
saslauth:x:996:76:Saslauthd user:/run/saslauthd:/sbin/nologin
rpcuser:x:29:29:RPC Service User:/var/lib/nfs:/sbin/nologin
tss:x:59:59:Account used by the trousers package to sandbox the tcsd daemon:/dev/null:/sbin/nologin
usbmuxd:x:113:113:usbmuxd user:/:/sbin/nologin
qemu:x:107:107:qemu user:/:/sbin/nologin
radvd:x:75:75:radvd user:/:/sbin/nologin

[root@gcc zhengze1]#sed -n '/^a/p' /etc/passwd      #过滤出以a开头的行
adm:x:3:4:adm:/var/adm:/sbin/nologin
abrt:x:173:173::/etc/abrt:/sbin/nologin
avahi:x:70:70:Avahi mDNS/DNS-SD Stack:/var/run/avahi-daemon:/sbin/nologin

[root@gcc zhengze1]#sed -n '/bash$/p' /etc/passwd    #过滤出以bash结尾的行
root:x:0:0:root:/root:/bin/bash
gcc:x:1000:1000:gcc:/home/gcc:/bin/bash
wangyi:x:1001:1001::/home/wangyi:/bin/bash
wanger:x:1002:1002::/home/wanger:/bin/bash
wangsan:x:1003:1003::/home/wangsan:/bin/bash
wangsi:x:1004:1004::/home/wangsi:/bin/bash

[root@gcc zhengze1]#sed -n '/ftp\|root/p' /etc/passwd     #打印具有ftp或(“|”)root的行，这里加转义符\是以防|具有其他的意义，比如|具有管道符号的作用
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin

[root@gcc zhengze1]#sed -n '2,/nobody/p' /etc/passwd     #从第二行开始打印，一直打印到具有第一个具有nobody的行停止
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
nobody:x:99:99:Nobody:/:/sbin/nologin


[root@gcc zhengze1]#sed -nr '/ro{1,}t/p' /etc/passwd      #加 r 表示支持正则表达式，ro{1,}t表示匹配前导符o不少于1次
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin

3、删除行

[root@gcc zhengze1]#sed 'd' testfile1         #删除全部的行
[root@gcc zhengze1]# 
[root@gcc zhengze1]#sed '3d' testfile1        #删除第三行
one
two
four
five
six
seven
eight
nine
ten
eleven
twelve
[root@gcc zhengze1]#sed '2,9d' testfile1      #删除2-9行
one
ten
eleven
twelve


[root@gcc zhengze1]#sed '$d' testfile1        #删除最后一行

[root@gcc zhengze1]#sed '/^$/d' testfile1     #删除空行
[root@gcc zhengze1]#sed -i '/^$/d' testfile1    #因为前面所有的打印的内容都不是直接修改的文件，如果想要修改文件内容可以使用 -i 操作进行直接修改

[root@gcc zhengze1]#sed '/nologin$/d'  /etc/passwd     #删除以nologin结尾的行

[root@gcc zhengze1]#sed '/nologin$/!d'  /etc/passwd    #！表示取反操作，即除了以nologin结尾的行都删除

[root@gcc zhengze1]#sed '/2/,/3/d' testfile2   #从第一个位置打开行删除功能，到第二个位置关闭行行删除功能，也就是从第一个带有字符2的行开始删，一直删到带有字符3的行位置

4、替换

格式：

行范围  s/旧字符串/新字符串/替换标记

4种替换标记
数字：表明新字符串将替换第几处匹配的地方
g：表明新字符串将会替换所有匹配的地方
p：打印与替换命令匹配的行，与-n 一起使用
w 文件：将替换的结果写到文件中

[root@gcc zhengze1]#sed -n 's/root/admin/p' /etc/passwd     #将第一个root替换为admin并打印出来，注意只替换第一个root,如果同一行后面还有第二个第三个root都不会替换
admin:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/admin:/sbin/nologin

[root@gcc zhengze1]#sed -n 's/root/admin/2p' /etc/passwd   #将一行中的第二个root替换为admin，注意只替换一行中的第二个，同一行中的其他的root都不替换
root:x:0:0:admin:/root:/bin/bash

[root@gcc zhengze1]#sed -n 's/root/admin/gp' /etc/passwd   #替换所有的root，无论是第一个还是第几个
admin:x:0:0:admin:/admin:/bin/bash
operator:x:11:0:operator:/admin:/sbin/nologin

[root@gcc zhengze1]#sed -n 's/root//gp' /etc/passwd        #把所有的root都删掉
:x:0:0::/:/bin/bash
operator:x:11:0:operator:/:/sbin/nologin

[root@gcc zhengze1]#sed '1,20 s/^/#/' /etc/passwd          #将1-20行的开头添加#号
#root:x:0:0:root:/root:/bin/bash
#bin:x:1:1:bin:/bin:/sbin/nologin
#daemon:x:2:2:daemon:/sbin:/sbin/nologin
#adm:x:3:4:adm:/var/adm:/sbin/nologin
#lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin

[root@gcc zhengze1]#sed -n '/^root/ s/$/#/p' /etc/passwd     #在以root开头的行的结尾添加#号
root:x:0:0:root:/root:/bin/bash#

[root@gcc zhengze1]#vim script.sed      #创建一个用于sed命令的脚本
s/2/666/                                #将2替换为666，下面以此类推
s/3/777/
s/100/888                           
[root@gcc zhengze1]#sed -f script.sed  testfile2    #然后就可以直接使用该脚本对文件2进行操作了
.......

[root@gcc zhengze1]#sed '1,20w out.txt' /etc/passwd      #将/etc/passwd中的1-20行输出保存到out.txt文件中

[root@gcc zhengze1]#sed '1,20 s/^/#/w out.txt' /etc/passwd      #将/etc/passwd 中的1-20行的开头添加#后保存到out.txt文件中

[root@gcc zhengze1]#sed -n 's/\/bin\/bash/\/bin\/csh/p' /etc/passwd     #将/bin/bash替换成/bin/csh，这里在“/”前面加了转义符“\”是因为“/”具有其他的功能，所以需要加转义符进行限制
[root@gcc zhengze1]#sed -n 's!/bin/bash!/bin/csh!p' /etc/passwd        #上面看着很乱，我们就可以使用“!”作为字符串的分隔符，但是意义和上面的命令是相同的

5、插入

[root@gcc zhengze1]#sed '/45/c ABC' testfile2     #将内容有45的行，整行替换为ABC

[root@gcc zhengze1]#sed '/45/ y/45/AB/' testfile2    #将内容45装换为AB，注意使用“y”时需要转换前后的字符长度必须相同

[root@gcc zhengze1]#sed '1,3a ABC' testfile1      #在1-3行，每行的下面都插入ABC
one
ABC
two
ABC
three
ABC
four
five
six

[root@gcc zhengze1]#sed '1i ABC' testfile1    #在第一行的上面插入ABC
ABC
one
two
three

[root@gcc zhengze1]#sed '1r /etc/resolv.conf' testfile1    #“-r” 是读入的操作符，此命令的意思是将/etc/reslv.conf中的内容读入到testfike1文件的第一行的下面
one
# Generated by NetworkManager
nameserver 192.168.200.2
two
three

[root@gcc zhengze1]#sed '/root/{H;d};$G' /etc/passwd    #将带有/root的行剪切到末尾，H表示复制到剪切板，d表示删除，G表示粘贴到指定行之后

[root@gcc zhengze1]#sed '1,2H;3,4G'  testfile1    #将1，2行复制到3和4行的下面，注意第三行和第四行都会复制1，2两行的内容
one
two
three

one
two
four

one
two
five
six
seven

二、awk编辑器

在 Linux/UNIX 系统中，awk 是一个功能强大的编辑工具，逐行读取输入文本，并根据指定的匹配模式进行查找，对符合条件的内容进行格式化输出或者过滤处理，可以在无交互的情况下实现相当复杂的文本操作，被广泛应用于 Shell 脚本，完成各种自动化配置任务。

（一）、工作原理:

逐行读取文本，默认以空格或tab键为分隔符进行分隔，将分隔所得的各个字段保存到内建变量中，并按模式或者条件执行编辑命令。

sed命令常用于一整行的处理，而awk比较倾向于将一行分成多个“字段”，然后再进行处理。awk信息的读入也是逐行读取的，执行结果可以通过 print 的功能将字段数据打印显示。在使用awk命令的过程中，可以使用逻辑操作符"&&“表示"与”、"||“表示"或”、"!“表示“非”；还可以进行简单的数学运算，如+、-、*、/、%、^分别表示加、减、乘、除、取余和乘方。

（二）、命令格式:

awk  选项   '模式或条件 {操作}'  文件1   文件2...
awk  -f   脚本文件   文件1    文件2...

（三）、awk常见的内建变量(可直接用)如下所示:

FS：列分割符。指定每行文本的字段分隔符，默认为空格或制表位。与"-F"作用相同
NF：当前处理的行的字段个数。
NR：当前处理的行的行号(序数)
$0：当前处理的行的整行内容。
$n：当前处理行的第n个字段(第n列)
FILENAME：被处理的文件名。
RS：行分隔符。awk从文件上读取资料时，将根据RS的定义把资料切割成许多条记录，而awk一次仅读入一条记录，以进行处理。预设值是’\n’

（四）、示例：

1、按行输出文本

输出所有内容

awk  '{print)’  testfile1         #输出所有内容
awk '{print $0}’ testfile1        #输出所有内容

示例：

[root@gcc zhengze1]#awk '{print}' testfile1      #输出所有内容
one
two
three
four
five
six
seven
eight
nine
ten
eleven

[root@gcc zhengze1]#awk '{print $0}' testfile1       #和上面命令一样，也是输出所有内容
one
two
three
four
five
six
seven
eight
nine
ten
eleven
twelve

输出指定行内容

awk 'NR==1, NR==3{print}'  testfile1       #输出第1-3行内容
awk  '(NR>=1) &&  (NR<=3)  {print}'  testfile1       #输出第1-3行内容

awk  'NR==1 || NR==3 {print}'    testfile1       #输出第1行、第3行内容

示例：

[root@gcc zhengze1]#awk 'NR==1,NR==3{print}' testfile1     #输出第1-3行内容
one   
two
three

[root@gcc zhengze1]#awk '(NR>=1)&&(NR<=3){print}' testfile1       #输出第1-3行内容
one
two
three

[root@gcc zhengze1]#awk 'NR==1||NR==3{print}' testfile1          #输出第1行、第3行内容
one
three

输出奇数行，偶数行内容

awk '(NR%2)==1{print}'  testfile1      #输出奇数行
awk '(NR%2)==0{print}'  testfile1       #输出偶数行

示例：

[root@gcc zhengze1]#awk '(NR%2)==1{print}'  testfile1      #输出奇数行内容
one
three
five
seven
nine
eleven  
[root@gcc zhengze1]#awk '(NR%2)==0{print}'  testfile1      #输出偶数行内容
two
four
six
eight
ten
twelve

输出以…开头，以…结尾的行的内容

awk '/^root/{print}'  /etc/passwd        #输出以root开头的内容
awk '/nologin$/{print}'  /etc/passwd     #输出以nologin结尾的内容

示例：

[root@gcc zhengze1]#awk '/^root/{print}'  /etc/passwd 
root:x:0:0:root:/root:/bin/bash

[root@gcc zhengze1]#awk '/nologin$/{print}'  /etc/passwd 
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin

统计以…结尾的行数

awk 'BEGIN {x=0};/\/bin\/bash$/{x++};END {print x}' /etc/passwd
#统计以/bin/bash结尾的行数,等同于
grep  -c "/bin/bash$"  /etc/passwd

BEGIN模式表示：在处理指定的文本之前，需要先执行BEGIN模式中指定的动作； awk再处理指定的文本，之后再执行END模式中指定的动作，END{} 语句块中，往往会放入打印结果等语句。
在这里插入图片描述

2、按字段输出文本

awk -F ":" '{print $3}' /etc/passwd          #输出每行中（以”:“分割的）的第三个字段

awk -F ":" '{print $1,$3}' /etc/passwd       #输出每行中（以”:“分割的）的第1，3个字段

awk -F ":" '$3<5{print $1,$3}' /etc/passwd   #输出第三个字段的值小于5的行的第1，3个字段

awk -F ":" '!($3<200){print}' /etc/passwd    #输出第三个字段的值不小于200的行的内容

awk 'BEGIN {FS=":"};{if ($3>=200){print}}'  /etc/passwd   #先处理BEGIN里面的内容（将列分隔符改为：）再打印文本里的内容（如果第三段的的值大于等于200，就输出）

awk -F ":" '{max=($3>$4)?$3:$4;{print max}}' /etc/passwd
#($3>$4)?$3:$4是三元运算符，如果第三个字段的值大于第四个字段的值，则把第三个字段的值赋给max，否则把第四个字段的值赋给max

awk -F ":" '{print NR,$0}' /etc/passwd        #输出内行的内容和行号，没处理完一条记录，NR值（当前处理的行的行号）加1

awk -F ":" '$7~"/bash"{print $1}' /etc/passwd    #输出以冒号分割且第7个字段中包含/bash的行的第1个字段

awk -F ":"  '($1~"root")&&(NF==7){print $1,$2}' /etc/passwd    #输出第1个字段中包含root且有7个字段的行的第1、2个字段（NF：当前处理的行的字段个数）

awk -F ":" '($7!="/bin/bash")&&($7!="/sbin/nologin"){print}' /etc/passwd  #输出第7个字段不为/bin/bash，也不为/sbin/nologin的所有行

3、通过管道符号、双引号调用shell 命令

echo $PATH | awk 'BEGIN{RS=":"};END{print NR}'  #统计以冒号分隔的文本段落数，END{}语句块中，往往会放入打印结果等语句

awk -F ":" '/bash$/{print | "wc -l"}' /etc/passwd   
#调用 wc -l 命令统计使用 bash 的用户的个数(即以bash结尾的行)，等同于
grep -c "bash$"  /etc/passwd

free -m | awk '/Mem:/ {print int($3/($3+$4)*100)"%"}'     #查看当前内存使用百分比（int 指字符类型，这里代表整数型，即没有小数点）

top -b -n 1 | grep Cpu | awk -F ',' '{print $4}' | awk '{print $1}'   
#查看当前cpu空闲率，（-b -n 1表示只需要1次的输出结果）  
整句命令意思是：动态输出一次进程的结果（top -b -n 1）；过滤出Cpu那一行(grep Cpu)；以逗号进行分隔，打印出第四列（awk -F ',' '{print $4}'）;接着打印出过滤出的第四列的第一个值（awk '{print $1}'）

date -d "$(awk -F "." '{print $1}' /proc/uptime) second ago" +"%F %H:%M:%S"
#显示上次系统重启的时间，等同于uptime: second ago为显示多少秒前的时间，+"%F %H:%M:%S"等同于+”%Y-%m-%d %H:%M:%S“的时间格式

awk 'BEGIN {n=0 ; while ("w" | getline) n++ ; {print n-2}}'    
#调用w命令，并用来统计在线用户数；w命令可以获取当前在线的用户的详细信息；getline是取行；打印n-2行是因为w显示的信息的前两行是没有用的，所以去掉前两行。
[root@gcc zhengze1]#w
 15:41:01 up 19:50,  1 user,  load average: 0.00, 0.01, 0.05
USER     TTY      FROM             LOGIN@   IDLE   JCPU   PCPU WHAT
root     pts/0    192.168.200.1    11:19    5.00s  0.12s  0.01s w

awk 'BEGIN {"hostname" | getline ; {print $0}}'     #调用hostname命令，输出当前的主机名
----------------------------------------------------------------------------------------------------------------------------------------------------------------
当getline左右无重定向符“<"或"|"时, awk首先读取到了第一行，就是1，然后getline，就得到了1下面的第二行，就是2，因为getline之后，awk会改变对应的NF，NR，FNR和$0等内部变量，所以此时的$0的值就不再是1，而是2了，然后将它打印出来。
当getline左右有重定向符"<"或"|"时，getline则作用于定向输入文件，由于该文件是刚打开，并没有被awk读入一行，只是getline读入，那么getline返回的是该文件的第一行，而不是隔行。

seq 10 | awk '{getline; print $0)'         #可以得出偶数行
seq 10 | awk '{print $0; getline}'         #可以得出奇数行

4、CPU使用率

cpu_us='top -b -n 1 | grep Cpu | awk '(print $2}'
cpu_sy='top -b -n 1 | grep Cpu | awk -F ','  '{print $2}'  | awk  '{print $1}'  
cpu_sum=$ ( ($cpu_us+$cpu_sy))
echo $cpu_sum