正则表达式与扩展表达式(awk、sed、grep三剑客)

正则表达式

  1. 正则表达式的定义正则表达式又称正规表达式、常规表达式。在代码中常简写为 regex、regexp 或 RE。正则表达式是使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。
  2. 简单来说, 是一种匹配字符串的方法,通过一些特殊符号,实现快速查找、删除、替换某个特定字符串。
  3. 正则表达式是由普通字符与元字符组成的文字模式。模式用于描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。其中普通字符包括大小写字母、数字、标点符号及一些其他符号,元字符则是指那些在正则表达式中具有特殊意义的专用字符,可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式。
  4. 正则表达式一般用于脚本编程与文本编辑器中。很多文本处理器与程序设计语言均支持正则表达式,如前面提到的 Perl、Linux 系统中常见的文本处理器(grep、egrep、sed、awk)。

基础正则表达式

1、正则表达式的字符串表达方法根据不同的严谨程度与功能分为基本正则表达式与扩展正则表达式。基础正则表达式是常用的正则表达式的最基础的部分。在 Linux 系统中常见的文件处理工具中 grep 与 sed 支持基础正则表达式,而 egrep 与 awk 支持扩展正则表达式。
2、grep,sed,awk 更是 shell 编程中经常用到的文本处理工具,被称之为 Shell 编程三剑客。

一、元字符总结

元字符作用
^匹配输入字符串的开始位置。除非在方括号表达式中使用,表示不包含该字符集合。要匹配“^”字符本身,请使用“^”
$匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则“KaTeX parse error: Undefined control sequence: \n at position 6: ”也匹配‘\̲n̲’或‘\r’。要匹配“”字符本身,请使用“$”。匹配除“\r\n”之外的任何单个字符
\将下一个字符标记为特殊字符、原义字符、向后引用、八进制转义符。例如,‘n’匹配字符“n”。 ‘\n’匹配换行符。序列‘\’匹配“\”,而‘(’则匹配“(”
*匹配前面的子表达式零次或多次。要匹配“*”字符,请使用“*”
[ ]字符集合。匹配所包含的任意一个字符。例如,“[abc]”可以匹配“plain”中的“a”
[^]赋值字符集合。匹配未包含的一个任意字符。例如,“[^abc]”可以匹配“plain”中“plin”中的任何一个字母
[n1-n2]字符范围。匹配指定范围内的任意一个字符。例如,“[a-z]”可以匹配“a”到“z”范围内的任意一个小写字母字符。注意:只有连字符(-)在字符组内部,并且出现在两个字符之间时,才能表示字符的范围;如果出现在字符组的开头,则只能表示连字符本身
{n}n 是一个非负整数,匹配确定的 n 次。例如,“o{2}”不能匹配“Bob”中的“o”,但是能匹配“food”中的两个 o
{n,}n 是一个非负整数,至少匹配 n 次。例如,“o{2,}”不能匹配“Bob”中的“o”,但能匹配“foooood”中的所有 o。“o{1,}”等价于“o+”。“o{0,}”则等价于“o*”
{n,m}m 和n 均为非负整数,其中 n<=m,最少匹配 n 次且最多匹配 m 次

二、 扩展正则表达式

1、grep 命令仅支持基础正则表达式,如果使用扩展正则表达式,需要使用 egrep 或 awk 命令。
注意:egrep不仅支持基本正则表达式,而且还支持扩展正则表达式。
常见的扩展正则表达式的元字符主要包括以下几个:

+作用:重复一个或者一个以上的前一个字符;示例:执行“egrep -n ‘wo+d’ test.txt”命令,即可查询"wood" “woood” "woooooood"等字符串
作用:零个或者一个的前一个字符;示例:执行“egrep -n ‘bes?t’ test.txt”命令,即可查询“bet”“best”这两个字符串
作用:使用或者(or)的方式找出多个字符;示例:执行“egrep -n 'of
()作用:查找“组”字符串;示例:“egrep -n 't(a
()+作用:辨别多个重复的组;示例:“egrep -n ‘A(xyz)+C’ test.txt”。该命令是查询开头的"A"结尾是"C",中间有一个以上的 "xyz"字符串的意思

三、 文本处理器

1、sed工具
sed(Stream EDitor)是一个强大而简单的文本解析转换工具,可以读取文本,并根据指定的条件对文本内容进行编辑(删除、替换、添加、移动等),最后输出所有行或者仅输出处理的某些行。sed 也可以在无交互的情况下实现相当复杂的文本处理操作,被广泛应用于 Shell 脚本中,用以完成各种自动化处理任务。
sed 的工作流程主要包括读取、执行和显示三个过程。
(1)读取:sed 从输入流(文件、管道、标准输入)中读取一行内容并存储到临时的缓冲区中(又称模式空间,pattern space)。
(2) 执行:默认情况下,所有的 sed 命令都在模式空间中顺序地执行,除非指定了行的地址,否则 sed 命令将会在所有的行上依次执行。Ø
(3)显示:发送修改后的内容到输出流。再发送数据后,模式空间将会被清空。在所有的文件内容都被处理完成之前,上述过程将重复执行,直至所有内容被处理完。
注意:默认情况下,所有的 sed 命令都是在模式空间内执行的,因此输入的文件并不会发生任何变化,除非是用重定向存储输出。
2.sed 命令常见用法
(1)sed[选项] ‘操作’ 参数
(2)sed [选项] -f scriptfile 参数
常见的 sed 命令选项主要包含以下几种。
Ø -e 或–expression=:表示用指定命令或者脚本来处理输入的文本文件。
Ø -f 或–file=:表示用指定的脚本文件来处理输入的文本文件。
Ø -h 或–help:显示帮助。
Ø -n、–quiet 或 silent:表示仅显示处理后的结果。
Ø -i:直接编辑文本文件。
“操作”用于指定对文件操作的动作行为,也就是 sed 的命令。通常情况下是采用的“[n1[,n2]]”操作参数的格式。n1、n2 是可选的,不一定会存在,代表选择进行操作的行数,如操作需要在 5~20 行之间进行,则表示为“5,20 动作行为”。常见的操作包括以下几种。
Ø a:增加,在当前行下面增加一行指定内容。
Ø c:替换,将选定行替换为指定内容。
Ø d:删除,删除选定的行。i:插入,在选定行上面插入一行指定内容
Ø p:打印,如果同时指定行,表示打印指定行;如果不指定行,则表示打印所有内容;如果有非打印字符,则以 ASCII 码输出。其通常与“-n”选项一起使用。
Ø s:替换,替换指定字符。
y:字符转换。
用法示例:
1)输出符合条件的文本(p 表示正常输出)
2) 删除符合条件的文本(d)
3) 替换符合条件的文本

sed 's/the/THE/' test.txt	//将每行中的第一个the 替换为 THE 
sed 's/l/L/2' test.txt	//将每行中的第 3 个l 替换为L 
sed 's/the/THE/g' test.txt	//将文件中的所有the 替换为THE
sed 's/o//g' test.txt	//将文件中的所有o 删除(替换为空串)
sed 's/^/#/' test.txt	//在每行行首插入#号
sed '/the/s/^/#/' test.txt		//在包含the 的每行行首插入#号
sed 's/$/EOF/' test.txt		//在每行行尾插入字符串EOF 
sed '3,5s/the/THE/g' test.txt	//将第 3~5 行中的所有the 替换为 THE
sed '/the/s/o/O/g' test.txt	//将包含the 的所有行中的o 都替换为 O

4) 迁移符合条件的文本
其中,H,复制到剪贴板;g、G,将剪贴板中的数据覆盖/追加至指定行;w,保存为文件;r,读取指定文件;a,追加指定内容。

sed '/the/{H;d};$G' test.txt	//将包含the 的行迁移至文件末尾,{;}用于多个操作sed '1,5{H;d};17G' test.txt	//将第 1~5 行内容转移至第 17 行后
sed '/the/w out.file' test.txt	//将包含the 的行另存为文件out.file 
sed '/the/r /etc/hostname' test.txt	//将文件/etc/hostname 的内容添加到//包含the 的每行以后
sed '3aNew' test.txt		//在第 3 行后插入一个新行,内容为 New 
sed '/the/aNew' test.txt	//在包含the 的每行后插入一个新行,内容为 New 
sed '3aNew1\nNew2' test.txt	//在第 3 行后插入多行内容,中间的\n 表示换行

(5) 使用脚本编辑文件
使用 sed 脚本,将多个编辑指令存放到文件中(每行一条编辑指令),通过“-f”选项来调用。例如:

sed '1,5{H;d};17G' test.txt	//将第 1~5 行内容转移至第 17 行后

以上操作可以改用脚本文件方式:
在这里插入图片描述
3、awk工具
(1)通常情况下 awk 所使用的命令格式如下所示,其中,单引号加上大括号“{}”用于设置对数据进行的处理动作。awk 可以直接处理目标文件,也可以通过“-f”读取脚本对目标文件进行处理。
(2)awk 比较倾向于将一行分成多个“字段”然后再进行处理,且默认情况下字段的分隔符为空格或者 tab 键。awk 执行结果可以通过 print 的功能将字段数据打印显示。在使用 awk 命令的过程中,可以使用逻辑操作符“&&”,表示“与”, “||”表示“或”,“!”表示“非”;还可以进行简单的数学运算,如+、-、*、/、%、^分别 表示加、减、乘、除、取余和乘方
在这里插入图片描述
awk 从输入文件或者标准输入中读入信息,与 sed 一样,信息的读入也是逐行读取的。不同的是 awk 将文本文件中的一行视为一个记录,而将一行中的某一部分(列)作为记录中的一个字段(域)。为了操作这些不同的字段,awk 借用 shell 中类似于位置变量的方法, 用$1、$2、$3„顺序地表示行(记录)中的不同字段。另外 awk 用$0 表示整个行(记录)。不同的字段之间是通过指定的字符分隔。awk 默认的分隔符是空格。awk 允许在命令行中用“-F 分隔符”的形式来指定分隔符。因此,上述示例中,awk 命令对/etc/passwd 文件的处理过程如下图所示。
在这里插入图片描述
awk 包含几个特殊的内建变量(可直接用)如下所示:

 FS:指定每行文本的字段分隔符,默认为空格或制表位。
 NF:当前处理的行的字段个数。
 NR:当前处理的行的行号(序数)。
 $0:当前处理的行的整行内容。
 $n:当前处理行的第 n 个字段(第 n 列)。
 FILENAME:被处理的文件名。
 RS:数据记录分隔,默认为\n,即每行为一条记录。

用法示例:

(1)按行输出文本在这里插入图片描述
两行命令功能相同:

awk '{print}'  test.txt'
awk  ‘{print $0}'  test.txt
awk'NR==1,NR==3{print}' test.txt    //输出第 1~3 行内容
awk'(NR>=1)&&(NR<=3){print}' test.txt    //输出第 1~3 行内容
awk'NR==1||NR==3{print}' test.txt   //输出第 1 行、第 3 行内容
awk'(NR%2)==1{print}' test.txt//输出所有奇数行的内容
awk'(NR%2)==0{print}' test.txt//输出所有偶数行的内容
awk'/^root/{print}' /etc/passwd//输出以root 开头的行
awk '/nologin$/{print}' /etc/passwd//输出以 nologin 结尾的行
awk 'BEGIN {x=0} ; /\/bin\/bash$/{x++};END {print x}' /etc/passwd//统计以/bin/bash 结尾的行数,等同于 grep -c "/bin/bash$" /etc/passwd 
awk 'BEGIN{RS=""};END{print NR}' /etc/squid/squid.conf//统计以空行分隔的文本段落数

(2)按字段输出

awk '{print $3}' test.txt	//输出每行中(以空格或制表位分隔)的第 3 个字段
awk '{print $1,$3}' test.txt	//输出每行中的第 1、3 个字段
awk -F ":" '$2==""{print}' /etc/shadow //输出密码为空的用户的shadow 记录
awk 'BEGIN {FS=":"}; $2==""{print}' /etc/shadow//输出密码为空的用户的shadow 记录
awk -F ":" '$7~"/bash"{print $1}' /etc/passwd//输出以冒号分隔且第 7 个字段中包含/bash 的行的第 1 个字段
awk '($1~"nfs")&&(NF==8){print $1,$2}' /etc/services//输出包含 8 个字段且第 1 个字段中包含 nfs 的行的第 1、2 个字段
awk -F ":" '($7!="/bin/bash")&&($7="/sbin/nologin"{print}'/etc/passwd//输出第 7 个字段既不为/bin/bash 也不为/sbin/nologin 的所有行

(3)通过管道、双引号调用shell命令

awk -F: '/bash$/{print | "wc -l"}' /etc/passwd//调用wc -l 命令统计使用bash 的用户个数,等同于 grep -c "bash$" /etc/passwd 
awk 'BEGIN {while ("w" | getline) n++ ; {print n-2}}'//调用w 命令,并用来统计在线用户数
awk 'BEGIN { "hostname" | getline ; print $0}'//调用hostname,并输出当前的主机名

4、sort工具
(1) 在 Linux 系统中,常用的文件排序工具有三种:sort、uniq、wc 。本章将介绍前两种工具的用法。
(2)sort 是一个以行为单位对文件内容进行排序的工具,也可以根据不同的数据类型来排序。例如数据和字符的牌局就不一样。sort 命令的语法为“sort [选项] 参数”,其中常用的选项包括以下几种。

 -f:忽略大小写;
 -b:忽略每行前面的空格;
 -M:按照月份进行排序;
 -n:按照数字进行排序;
 -r:反向排序
 -u:等同于 uniq,表示相同的数据仅显示一行(真正意义上的去除重复);
 -t:指定分隔符,默认使用[Tab]键分隔;
 -o <输出文件>:将排序后的结果转存至指定文件;
 -k:指定排序区域。

5、uniq工具
Uniq 工具在 Linux 系统中通常与 sort 命令结合使用,用于报告或者忽略文件中的重复行。具体的命令语法格式为:uniq [选项] 参数。其中常用选项包括以下几种。

 -c:进行计数;
 -d:仅显示重复行;
 -u:仅显示出现一次的行;

示例:删除12中的重复行
(1)uniq只能删除连续的重复项
在这里插入图片描述
在这里插入图片描述
(2)uniq -c:统计重复的次数
在这里插入图片描述
(3)uniq -u:显示连续不重复的内容
在这里插入图片描述
(4)uniq -d:显示连续重复的内容
在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值