Shell编程之正则表达式与文本处理器

最新推荐文章于 2022-08-08 19:53:09 发布

喵了个咪的！

最新推荐文章于 2022-08-08 19:53:09 发布

阅读量120

点赞数 1

本文链接：https://blog.csdn.net/jesen_32/article/details/109461219

版权

正则表达式的定义

正则表达式又称正规表达式、常规表达式。在代码中常简写为regex、regexp或 RE。正则表达式是使用单个字符串来描述、匹配一系列符合某个句法规则的字符串，简单来说，是一种匹配字符串的方法，通过一些特殊符号，实现快速查找、删除、替换某个特定字符串。
正则表达式是由普通字符与元字符组成的文字模式。模式用于描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。其中普通字符包括大小写字母、数字、标点符号及一些其他符号，元字符则是指那些在正则表达式中具有特殊意义的专用字符，可以用来规定其前导字符（即位于元字符前面的字符）在目标对象中的出现模式。

正则表达式用途

正则表达式对于系统管理员来说是非常重要的，系统运行过程中会产生大量的信息，这些信息有些是非常重要的，有些则仅是告知的信息。身为系统管理员如果直接看这么多的信息数据，无法快速定位到重要的信息，如“用户账号登录失败”“服务启动失败”等信息。这时可以通过正则表达式快速提取“有问题”的信息。如此一来，可以将运维工作变得更加简单、方便。

基础正则表达式

正则表达式的字符串表达方法根据不同的严谨程度与功能分为基本正则表达式与扩展正则表达式。基础正则表达式是常用正则表达式最基础的部分。在 Linux 系统中常见的文件处理工具中 grep 与 sed 支持基础正则表达式，而 egrep 与 awk 支持扩展正则表达式。掌握基础正则表达式的使用方法，首先必须了解基本正则表达式所包含元字符的含义，下面通过grep 命令以举例的方式逐个介绍
下面的操作需要提前准备一个名为 test.txt 的测试文件，文件具体内容如下

[root@localhost ~]# cat test.txt
he was short and fat.
He was wearing a blue polo shirt with black pants. 
The home of Football on BBC Sport online.
the tongue is boneless but it breaks bones.12! 
google is the best tools for search keyword.
The year ahead will test our political establishment to the limit.
PI=3.141592653589793238462643383249901429
a wood cross!
Actions speak louder than words  

#woood# 
#woooooood # 
AxyzxyzxyzxyzC
I bet this place is really spooky late at night! 
Misfortunes never come alone/single.
I shouldn't have lett so tast.

查找特定字符

查找特定字符非常简单，如执行以下命令即可从 test.txt 文件中查找出特定字符“the”所在位置。其中“-n”表示显示行号、“-i”表示不区分大小写。

[root@localhost ~]# grep -n 'the' test.txt
4:the tongue is boneless but it breaks bones.12! 
5:google is the best tools for search keyword.
6:The year ahead will test our political establishment to the limit. 
[root@localhost ~]# grep -in 'the' test.txt
3:The home of Football on BBC Sport online. 
4:the tongue is boneless but .it breaks bones.12! 
5:google is the best tools for search keyword.
6:The year ahead will test our political establishment to the limit

若反向选择，如查找不包含“the”字符的行，则需要通过 grep 命令的“-v”选项实现，并配合“-n”一起使用显示行号。

[root@localhost ~]# grep -vn 'the' test.txt
1:he was short and fat.
2:He was wearing a blue polo shirt with black pants. 
3:The home of Football on BBC Sport online.
7:PI=3.141592653589793238462643383249901429
8:a wood cross!
9:Actions speak louder than words 
10:
11:#woood # 
12:#woooooood # 
13:AxyzxyzxyzxyzC
14:I bet this place is really spooky late at night! 
15:Misfortunes never come alone/single.
16:I shouldn't have lett so tast.

利用中括号“[]”来查找集合字符

想要查找“shirt”与“short”这两个字符串时，可以发现这两个字符串均包含“sh”与“rt”。此时执行以下命令即可同时查找到“shirt”与“short”这两个字符串，其中“[]”中无论有几个字符，都仅代表一个字符，也就是说“[io]”表示匹配“i”或者“o”。

[root@localhost ~]# grep -n 'sh[io]rt' test.txt
1:he was short and fat.
2:He was wearing a blue polo shirt with black pants.

查找行首“^”与行尾字符“$”

[root@localhost ~]# grep -n '^the' test.txt
4:the tongue is boneless but it breaks bones.12!
[root@localhost ~]# grep -n '^[a-z]' test.txt
1:he was short and fat.
4:the tongue is boneless but it breaks bones.12! 
5:google is the best tools for search keyword.
8:a wood cross!
[root@localhost ~]# grep -n '^[A-Z]' test.txt
2:He was wearing a blue polo shirt with black pants. 
3:The home of Football on BBC Sport online.
6:The year ahead will test our political establishment to the limit. 
7:PI=3.141592653589793238462643383249901429
9:Actions speak louder than words
13:AxyzxyzxyzxyzC
14:I bet this place is really spooky late at night! 
15:Misfortunes never come alone/single.
16:I shouldn't have lett so tast.
[root@localhost ~]# grep -n '^[^a-zA-Z]' test.txt
11:#woood # 
12:#woooooood #

查找任意一个字符“.”与重复字符“*”

[root@localhost ~]# grep -n 'w..d' test.txt
5:google is the best tools for search keyword.
8:a wood cross!
9:Actions speak louder than words
[root@localhost ~]# grep -n 'ooo*' test.txt 
3:The home of Football on BBC Sport online. 
5:google is the best tools for search keyword. 
8:a wood cross!
11:#woood # 
12:#woooooood #
14:I bet this place is really spooky late at night!

查找连续字符范围“{}”

[root@localhost ~]# grep -n 'o\{2\}' test.txt 
3:The home of Football on BBC Sport online. 
5:google is the best tools for search keyword. 
8:a wood cross!
11:#woood # 
12:#woooooood #
14:I bet this place is really spooky late at night!

在这里插入图片描述

扩展正则表达式

与基础正则表达式类型相同，扩展正则表达式也包含多个元字符，常见的扩展正则表达式的元字符主要包括以下几个
在这里插入图片描述

文本处理器

在Linux/UNIX 系统中包含很多种类的文本处理器或文本编辑器,其中包括我们之前学习过的VIM 编辑器与grep 等。而 grep，sed，awk 更是Shell 编程中经常用到的文本处理工具，被称之为Shell 编程三剑客。

sed

sed（Stream EDitor）是一个强大而简单的文本解析转换工具，可以读取文本，并根据指定的条件对文本内容进行编辑（删除、替换、添加、移动等），最后输出所有行或者仅输出处理的某些行。
sed 的工作流程主要包括读取、执行和显示三个过程。
读取：sed 从输入流（文件、管道、标准输入）中读取一行内容并存储到临时的缓冲区中（又称模式空间，pattern space）。
执行：默认情况下，所有的 sed 命令都在模式空间中顺序地执行，除非指定了行的地址，否则 sed 命令将会在所有的行上依次执行。
显示：发送修改后的内容到输出流。在发送数据后，模式空间将会被清空。在所有的文件内容都被处理完成之前，上述过程将重复执行，直至所有内容被处理完。

sed 命令常见用法

sed [选项] ‘操作’ 参数
sed [选项] -f scriptfile 参数
常见的 sed 命令选项主要包含以下几种。
-e 或–expression=：表示用指定命令或者脚本来处理输入的文本文件。
-f 或–file=：表示用指定的脚本文件来处理输入的文本文件。
-h 或–help：显示帮助。
-n、–quiet 或 silent：表示仅显示处理后的结果。
-i：直接编辑文本文件。
“操作”用于指定对文件操作的动作行为，也就是 sed 的命令。通常情况下是采用的“[n1[,n2]]”操作参数的格式。n1、n2 是可选的，代表选择进行操作的行数，如操作需要在 5～ 20 行之间进行，则表示为“5，20 动作行为”。常见的操作包括以下几种。
a：增加，在当前行下面增加一行指定内容。
c：替换，将选定行替换为指定内容。
d：删除，删除选定的行。
i：插入，在选定行上面插入一行指定内容。
p：打印，如果同时指定行，表示打印指定行；如果不指定行，则表示打印所有内容；如果有非打印字符，则以 ASCII 码输出。其通常与“-n”选项一起使用。
s：替换，替换指定字符。
y：字符转换。

用法示例

[root@localhost ~]# sed -n 'p' test.txt
//输出所有内容,等同于 cat test.txt
he was short and fat.
He was wearing a blue polo shirt with black pants. 
The home of Football on BBC Sport online.
……//省略部分内容
[root@localhost ~]# sed -n '3p' test.txt //输出第 3 行
The home of Football on BBC Sport online.
[root@localhost ~]# sed -n '3,5p' test.txt //输出 3~5 行
The home of Football on BBC Sport online. 
the tongue is boneless but it breaks bones.12! 
google is the best tools for search keyword.
[root@localhost ~]# sed -n 'p;n' test.txt //输出所有奇数行,n 表示读入下一行资料
he was short and fat.
The home of Football on BBC Sport online. 
google is the best tools for search keyword.
……//省略部分内容
[root@localhost ~]# sed -n 'n;p' test.txt //输出所有偶数行,n 表示读入下一行资料
He was wearing a blue polo shirt with black pants. 
the tongue is boneless but it breaks bones.12!
The year ahead will test our political establishment to the limit.
……//省略部分内容
[root@localhost ~]# sed -n '1,5{p;n}' test.txt //输出第 1~5 行之间的奇数行(第 1、3、5 行) 
he was short and fat.
The home of Football on BBC Sport online. 
google is the best tools for search keyword.
[root@localhost ~]# sed -n '10,${n;p}' test.txt //输出第 10 行至文件尾之间的偶数行
#woood # AxyzxyzxyzxyzC
Misfortunes never come alone/single.

awk

在 Linux/UNIX 系统中，awk 是一个功能强大的编辑工具，逐行读取输入文本，并根据指定的匹配模式进行查找，对符合条件的内容进行格式化输出或者过滤处理，可以在无交互的情况下实现相当复杂的文本操作，被广泛应用于 Shell 脚本，完成各种自动化配置任务。

awk 常见用法

awk 选项 ‘模式或条件 {编辑指令}’ 文件 1 文件 2 … //过滤并输出文件中符合条件的内容
awk -f 脚本文件文件 1 文件 2 … //从脚本中调用编辑指令,过滤并输出内容

前面提到 sed 命令常用于一整行的处理,而 awk 比较倾向于将一行分成多个“字段”然后再进行处理，且默认情况下字段的分隔符为空格或 tab 键。awk 执行结果可以通过 print 的功能将字段数据打印显示。在使用 awk 命令的过程中,可以使用逻辑操作符“&&”表示“与”、“||” 表示“或”、“！”表示“非”；还可以进行简单的数学运算，如+、-、*、/、%、^分别表示加、减、乘、除、取余和乘方。

若需要查找出/etc/passwd 的用户名、用户 ID、组 ID 等列，执行以下 awk 命令即可。

[root@localhost ~]# awk -F ':' '{print $1,$3,$4}' /etc/passwd
root 0 0
bin 1 1
daemon 2 2
……//省略部分内容

awk 从输入文件或者标准输入中读入信息，与 sed 一样，信息的读入也是逐行读取的。不同的是 awk 将文本文件中的一行视为一个记录，而将一行中的某一部分（列）作为记录中的一个字段（域）。为了操作这些不同的字段，awk 借用 shell 中类似于位置变量的方法，用$1、$2、$3…顺序地表示行（记录）中的不同字段。另外 awk 用$0 表示整个行（记录）。不同的字段之间是通过指定的字符分隔。awk 默认的分隔符是空格。awk 允许在命令行中用“-F 分隔符”的形式来指定分隔符
awk 包含几个特殊的内建变量（可直接用）如下所示：
FS：指定每行文本的字段分隔符，默认为空格或制表位。
NF：当前处理的行的字段个数。
NR：当前处理的行的行号（序数）。
$0：当前处理的行的整行内容。
$n：当前处理行的第 n 个字段（第 n 列）。
FILENAME：被处理的文件名。
RS：数据记录分隔，默认为\n，即每行为一条记录。

用法示例

按行输出文本

awk '{print}' test.txt //输出所有内容,等同于 cat test.txt
awk '{print $0}' test.txt //输出所有内容,等同于 cat test.txt
awk 'NR==1,NR==3{print}' test.txt //输出第 1~3 行内容
awk '(NR>=1)&&(NR<=3){print}' test.txt //输出第 1~3 行内容
awk 'NR==1||NR==3{print}' test.txt //输出第 1 行、第 3 行内容
awk '(NR%2)==1{print}' test.txt //输出所有奇数行的内容
awk '(NR%2)==0{print}' test.txt //输出所有偶数行的内容
awk '/^root/{print}' /etc/passwd //输出以root 开头的行
awk '/nologin$/{print}' /etc/passwd //输出以 nologin 结尾的行
awk 'BEGIN {x=0};/\/bin\/bash$/{x++};END {print x}' /etc/passwd
//统计以/bin/bash 结尾的行数,等同于 grep -c "/bin/bash$" /etc/passwd
awk 'BEGIN{RS=""};END{print NR}' /etc/squid/squid.conf
//统计以空行分隔的文本段落数

按字段输出文本

awk '{print $3}' test.txt //输出每行中(以空格或制表位分隔)的第 3 个字段
awk '{print $1,$3}' test.txt //输出每行中的第 1、3 个字段
awk -F ":" '$2==""{print}' /etc/shadow //输出密码为空的用户的shadow 记录
awk 'BEGIN {FS=":"}; $2==""{print}' /etc/shadow
//输出密码为空的用户的shadow 记录
awk -F ":" '$7~"/bash"{print $1}' /etc/passwd
//输出以冒号分隔且第 7 个字段中包含/bash 的行的第 1 个字段
awk '($1~"nfs")&&(NF==8){print $1,$2}' /etc/services
//输出包含 8 个字段且第 1 个字段中包含 nfs 的行的第 1、2 个字段
awk -F ":" '($7!="/bin/bash")&&($7!="/sbin/nologin"){print}' /etc/passwd
//输出第 7 个字段既不为/bin/bash 也不为/sbin/nologin 的所有行

通过管道、双引号调用 Shell 命令

awk -F: '/bash$/{print | "wc -l"}' /etc/passwd
//调用wc -l 命令统计使用 bash 的用户个数,等同于 grep -c "bash$" /etc/passwd
awk 'BEGIN {while ("w" | getline) n++ ; {print n-2}}'
//调用w 命令,并用来统计在线用户数
awk 'BEGIN { "hostname" | getline ; print $0}'
//调用hostname,并输出当前的主机名

sort 工具

在 Linux 系统中，常用的文件排序工具有三种：sort、uniq、wc 。本章将介绍前两种工具的用法。
sort 是一个以行为单位对文件内容进行排序的工具，也可以根据不同的数据类型来排序。例如数据和字符的排序就不一样。sort 命令的语法为“sort [选项] 参数”，其中常用的选项包括以下几种。
-f：忽略大小写；
-b：忽略每行前面的空格；
-M：按照月份进行排序；
-n：按照数字进行排序；
-r：反向排序；
-u：等同于 uniq，表示相同的数据仅显示一行；
-t：指定分隔符，默认使用[Tab]键分隔；
-o <输出文件>：将排序后的结果转存至指定文件；
-k：指定排序区域。

将/etc/passwd 文件中的账号进行排序。
[root@localhost ~]# sort /etc/passwd
abrt:x:173:173::/etc/abrt:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
apache:x:48:48:Apache:/var/www:/sbin/nologin
avahi-autoipd:x:170:170:Avahi IPv4LL Stack:/var/lib/avahi-autoipd:/sbin/nologin
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
dbus:x:81:81:System message bus:/:/sbin/nologin
//省略部分内容

将/etc/passwd 文件中第三列进行反向排序。
[root@localhost ~]# sort -t ':' -rk 3 /etc/passwd 
nobody:x:99:99:Nobody:/:/sbin/nologin
postfix:x:89:89::/var/spool/postfix:/sbin/nologin
dbus:x:81:81:System message bus:/:/sbin/nologin

将/etc/passwd 文件中第三列进行排序，并将输出内容保存至 user.txt 文件中。
[root@localhost ~]# sort -t ':' -k 3 /etc/passwd -o user.txt
[root@localhost ~]# cat user.txt
root:x:0:0:root:/root:/bin/bash
uucp:x:10:14:uucp:/var/spool/uucp:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
usbmuxd:x:113:113:usbmuxd user:/:/sbin/nologin

uniq 工具

Uniq 工具在 Linux 系统中通常与 sort 命令结合使用，用于报告或者忽略文件中的重复行。具体的命令语法格式为：uniq [选项] 参数。其中常用选项包括以下几种。
-c：进行计数；
-d：仅显示重复行；
-u：仅显示出现一次的行。

删除 testfile 文件中的重复行。
[root@localhost ~]# cat testfile
Linux 10
Linux 20
Linux 30
Linux 30
Linux 30
CentOS 6.5
CentOS 6.5
CentOS 6.5
CentOS 7.3
CentOS 7.3
CentOS 7.3
[root@localhost ~]# uniq testfile
Linux 10
Linux 20
Linux 30
CentOS 6.5
CentOS 7.3

删除 testfile 文件中的重复行，并在行首显示该行重复出现的次数。
[root@localhost ~]# uniq -c testfile
1 Linux 10
1 Linux 20
3 Linux 30
3 CentOS 6.5
3 CentOS 7.3

查找 testfile 文件中的重复行。
[root@localhost ~]# uniq -d testfile
Linux 30
CentOS 6.5
CentOS 7.3

喵了个咪的！

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Shell编程之正则表达式与文本处理器

正则表达式的定义正则表达式又称正规表达式、常规表达式。在代码中常简写为regex、regexp或 RE。正则表达式是使用单个字符串来描述、匹配一系列符合某个句法规则的字符串，简单来说，是一种匹配字符串的方法，通过一些特殊符号，实现快速查找、删除、替换某个特定字符串。正则表达式是由普通字符与元字符组成的文字模式。模式用于描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。其中普通字符包括大小写字母、数字、标点符号及一些其他符号，元字符则是指
复制链接

扫一扫