shell编程之正则表达式——理论基础

最新推荐文章于 2023-03-24 22:23:22 发布

唐门中单申请出战

最新推荐文章于 2023-03-24 22:23:22 发布

阅读量217

点赞数

分类专栏： shell脚本文章标签： linux 正则表达式 shell

本文链接：https://blog.csdn.net/qq_48191100/article/details/109491101

版权

shell脚本专栏收录该内容

11 篇文章

订阅专栏

前言

正则表达式，又称规则表达式（Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本
正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑
sed是文本处理工具，可以读取文本内容，根据指定条件对数据进行添加，删除，替换等操作，被广泛应用于shell脚本
awk是一个功能强大的编辑工具，用于在Linux/Unix下对文本和数据进行处理

一、基础正则表达式

1.1 正则表达式的定义

正则表达式又称正规表达式、常规表达式。在代码中常简写为 regex、regexp 或 RE。正则表达式是使用单个字符串来描述、匹配一系列符合某个句法规则的字符串，简单来说，是一种匹配字符串的方法，通过一些特殊符号，实现快速查找、删除、替换某个特定字符串
正则表达式是由普通字符与元字符组成的文字模式。模式用于描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。其中普通字符包括大小写字母、数字、标点符号及一些其他符号，元字符则是指那些在正则表达式中具有特殊意义的专用字符，可以用来规定其前导字符（即位于元字符前面的字符）在目标对象中的出现模式
正则表达式一般用于脚本编程与文本编辑器中。很多文本处理器与程序设计语言均支持正则表达式，如Linux 系统中常见的文本处理器（grep、egrep、sed、awk）。正则表达式具备很强大的文本匹配功能，能够在文本海洋中快速高效地处理文本

1.2 正则表达式用途

正则表达式对于系统管理员来说是非常重要的，系统运行过程中会产生大量的信息，这些信息有些是非常重要的，有些则仅是告知的信息。身为系统管理员如果直接看这么多的信息数据，无法快速定位到重要的信息，如“用户账号登录失败”“服务启动失败”等信息。这时可以通过正则表达式快速提取“有问题”的信息

1.3 基础正则表达式

正则表达式的字符串表达方法根据不同的严谨程度与功能分为基本正则表达式与扩展正则表达式
基础正则表达式是常用的正则表达式的最基础的部分，在 Linux 系统中常见的文件处理工具中 grep 与 sed 支持基础正则表达式
egrep 与 awk 支持扩展正则表达式

1.4 基础正则表达式：grep命令

1.4.1 查找特定字符

“-n”表示显示行号
“-i”表示不区分大小写
命令执行后，符合匹配标准的字符，字体颜色会变为红色
从 /etc/passwd文件中查找出特定字符“the” 所在位置

[root@client ~]# grep -n 'the' /etc/passwd
25:tss:x:59:59:Account used by the trousers package to sandbox the tcsd daemon:/dev/null:/sbin/nologin

从 /etc/passwd文件中查找出特定字符“the” 所在位置，不区分大小写

[root@client ~]# grep -in 'the' /etc/passwd

反向选择，如查找不包含“the”字符的行

[root@client ~]# grep -vn 'the' /etc/passwd
1:root:x:0:0:root:/root:/bin/bash
2:bin:x:1:1:bin:/bin:/sbin/nologin
3:daemon:x:2:2:daemon:/sbin:/sbin/nologin
...省略内容

1.4.2 利用中括号“[]”来查找集合字符

想要查找“shirt”与“short”这两个字符串时，可以发现这两个字符串均包含“sh” 与“rt”
“[ ]”中无论有几个字符，都仅代表一个字符，也就是说“[io]”表示匹配“i”或者“o”
同时查找到“shirt”与“short”这两个字符串

[root@localhost ~]# grep -n 'sh[io]rt' /etc/passwd

查找包含重复单个字符“oo”

[root@localhost ~]# grep -n 'oo' /etc/passwd

集合字符的反向选择可以通过“[^]”实现
在 /etc/passwd文本中查找“oo” 前面不是“r”的字符串

[root@localhost ~]# grep -n '[^r]oo' /etc/passwd

检索“oo”前面不存在大小写字母的字符串

[root@localhost ~]# grep -n '[^a-zA-Z]oo' /etc/passwd

查找包含数字的行

[root@localhost ~]# grep -n '[0-9]' /etc/passwd

1.4.3 查找行首“^”与行尾字符“$

基础正则表达式包含两个定位元字符：“^”（行首）与“$”（行尾）
“^”符号在元字符集合“[]”符号内外的作用是不一样的，在“[]”符号内表示反向选择，在“[]”符号外则代表定位行首
若想查找以某一特定字符结尾的行则可以使用“$”定位符
查询以“the”字符串为行首的行

[root@localhost ~]# grep -n '^the' /etc/passwd

查询不以字母开头的行

[root@localhost ~]# grep -n '^[^a-zA-Z]' /etc/passwd

查询以小数点（.）结尾的行

[root@localhost ~]# grep -n '\.$' /etc/passwd

小数点（.）在正则表达式中也是一个元字符（后面会讲到），所以在这里需要用转义字符“\”将具有特殊意义的字符转化成普通字符
查询空白行

[root@localhost ~]# grep -n '^$' /etc/passwd

1.4.4 查找任意一个字符“.”与重复字符“*”

在正则表达式中小数点（.）也是一个元字符，代表任意一个字符
查找以 w 开头 d 结尾,共有四个字符的字符串

[root@localhost ~]# grep -n 'w..d' /etc/passwd

若想要查询 wood、woood、woooood 等资料，则需要使用星号" * "元字符
“ * ”代表的是重复零个或多个前面的单字符
“o*”表示拥有零个（即为空字符）或大于等于一个“o”的字符

[root@localhost ~]# grep –n 'o*' /etc/passwd 'o的数量是0到多个'

“oo*”，则第一个 o 必须存在，第二个 o 则是零个或多个 o,所以凡是包含 o、oo、ooo、ooo，等的资料都符合标准

[root@localhost ~]# grep –n'oo*' /etc/passwd  'o的数量是1到多个'

查询包含至少两个 o 以上的字符串

[root@localhost ~]# grep –n'ooo*' /etc/passwd  'o的数量是2到多个'

查询以 w 开头 d 结尾，中间包含至少一个 o 的字符串

[root@localhost ~]# grep –n'woo*d' /etc/passwd

查询以 w 开头 d 结尾，中间的字符可有可无的字符串

[root@localhost ~]# grep –n'w.*d' /etc/passwd

查询任意数字所在行

[root@localhost ~]# grep –n'[0-9][0-9]*' /etc/passwd

1.4.5 查找连续字符范围“{}”

因为“{}”在 Shell 中具有特殊意义，所以在使用“{}”字符时，需要利用转义字符“\”，将“{}”字符转换成普通字符
查询两个 o 的字符

[root@localhost ~]# grep -n 'o\{2\}' /etc/passwd '2表示两个o'

查询以 w 开头以 d 结尾，中间包含 2～5 个 o 的字符串

[root@localhost ~]# grep -n 'wo\{2，5\}d' /etc/passwd

查询以 w 开头以 d 结尾，中间包含 2 以上 o 的字符串

[root@localhost ~]# grep -n 'wo\{2，\}d' /etc/passwd

1.5 总结

元字符	作用
^	匹配输入字符串的开始位置。除非在方括号表达式中使用，表示不包含该字符集合。要匹配“^{”字符本身，请使用“}”
$	匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性，则“KaTeX parse error: Undefined control sequence: \n at position 6: ”也匹配‘\̲n̲’或‘\r’。要匹配“”字符本身，请使用"\ $"
.	匹配除“\r\n”之外的任何单个字符
\	将下一个字符标记为特殊字符、原义字符、向后引用、八进制转义符。例如，‘n’匹配字符“n”。 ‘\n’匹配换行符。序列‘\ \’匹配“\”，而‘\ (’则匹配“(”
*	匹配前面的子表达式零次或多次。要匹配“”字符，请使用“\ ”
[]	字符集合。匹配所包含的任意一个字符。例如，“[abc]”可以匹配“plain”中的“a”
[^]	赋值字符集合。匹配未包含的一个任意字符。例如，“[ ^abc ] ”可以匹配“plain”中“plin”中的任何一个字母
[n1-n2]	字符范围。匹配指定范围内的任意一个字符。例如，“[a-z]”可以匹配“a”到“z”范围内的任意一个小写字母字符。注意：只有连字符（-）在字符组内部，并且出现在两个字符之间时，才能表示字符的范围；如果出现在字符组的开头，则只能表示连字符本身
{n}	n 是一个非负整数，匹配确定的 n 次。例如，“o\ {2\ }”不能匹配“Bob”中的“o”，但是能匹配“food”中的两个 o
{n,}	n 是一个非负整数，至少匹配 n 次。例如，“o\ {2,\ }”不能匹配“Bob”中的“o”，但能匹配“foooood”中的所有 o。“o\ {1,\ }”等价于“o+”。“o\ {0,\ }”则等价于“o*”
{n,m}	m 和n 均为非负整数，其中 n<=m，最少匹配 n 次且最多匹配 m 次

二、扩展正则表达式

2.1 扩展正则表达式概述：egrep命令

通常情况下会使用基础正则表达式就已经足够了，但有时为了简化整个指令，需要使用范围更广的扩展正则表达式。
例如，使用基础正则表达式查询除文件中空白行与行首为“#” 之外的行（通常用于查看生效的配置文件）

执行
grep –v '^$' test.txt | grep –v '^#'

使用扩展正则表达式

egrep –v '^$|^#' test.txt		'单引号内的管道符号表示或者（or）'

此外，grep 命令仅支持基础正则表达式，如果使用扩展正则表达式，需要使用 egrep 或 awk 命令
egrep 命令与 grep 命令的用法基本相似。egrep 命令是一个搜索文件获得模式，使用该命令可以搜索文件中的任意字符串和符号，也可以搜索一个或多个文件的字符串，一个提示符可以是单个字符、一个字符串、一个字或一个句子

2.2 扩展正则表达式常见元字符

元字符	作用与示例
+	作用：重复一个或者一个以上的前一个字符示例：执行“egrep -n ‘wo+d’ test.txt”命令，即可查询"wood" “woood” "woooooood"等字符串
？	作用：零个或者一个的前一个字符示例：执行“egrep -n ‘bes?t’ test.txt”命令，即可查询“bet”“best”这两个字符串
\|	作用：使用或者（or）的方式找出多个字符示例：执行“egrep -n ‘of
()	作用：查找“组”字符串示例：“egrep -n ‘t(a
()+	作用：辨别多个重复的组示例：“egrep -n ‘A(xyz)+C’ test.txt”。该命令是查询开头的"A"结尾是"C"，中间有一个以上的 "xyz"字符串的意思

2.3 正则表达式总结

grep命令都可以使用egrep实现
- 特殊情况：
  - grep ‘o\ {2\ }’ /etc/passwd # 特殊符号需要用脱意符号\，不然无法识别
  - egrep ‘o{2}’ /etc/passwd # 用egrep命令，不需要脱意，｛｝表示前边字符的重复范围
grep命令基本格式

grep -cinvABC 'word' filename

命令	解释
-c	行数
-i	不区分大小写
-n	显示行号
-v	取反
-r	遍历所有子目录
-A	后面跟数字，过滤出符合要求的行以及下面n行
-B	同上，过滤出符合要求的行以及上面n行
-C	同上，同时过滤出符合要求的行以及上下各n行