Shell编程之正则表达式与文本处理器-CSDN博客

符号	匹配规则	示例	示例匹配情况说明
`.`	匹配任意单个字符（除了换行符）	`a.c`	可匹配如 `abc`、`aec` 等，只要中间是除换行符外的任意一个字符即可
`[]`	匹配方括号内指定的任意一个字符	`[abc]`	能匹配字符 `a` 或者字符 `b` 或者字符 `c`，当目标字符为 `a`、`b`、`c` 其中之一时可匹配成功
`[^ ]`	匹配不在方括号内的任意一个字符	`[^abc]`	可匹配除 `a`、`b`、`c` 之外的任意字符，如 `d`、`e`、`1` 等
`-`（在方括号内）	用于指定字符范围	`[a-z]` 、`[0-9]`	`[a-z]` 可匹配任意小写字母，如 `a`、`b`、`z` 等；`[0-9]` 可匹配任意数字，如 `0`、`1`、`9` 等

2.2.2 数量限定符

符号	匹配规则	示例	示例可匹配内容
*	匹配前面的字符零次或多次	a*	空字符串、a、aa、aaa 等
+	匹配前面的字符一次或多次	a+	a、aa、aaa 等（不能匹配空字符串）
?	匹配前面的字符零次或一次	a?	空字符串或 a
{n}	匹配前面的字符恰好 n 次	a{3}	aaa
{n,}	匹配前面的字符至少 n 次	a{3,}	aaa、aaaa、aaaaa 等
{n,m}	匹配前面的字符至少 n 次，但不超过 m 次	a{2,4}	aa、aaa、aaaa

2.2.3 位置限定符

符号	匹配规则	示例	示例匹配情况说明
^	匹配行的开头	^abc	匹配以 abc 开头的行
$	匹配行的结尾	abc$	匹配以 abc 结尾的行
\b	匹配单词边界	\bcat\b	匹配独立的单词 cat，不匹配 category 中的 cat

2.3 扩展正则表达式

在基本正则表达式的基础上，扩展正则表达式增加了一些新的元字符和功能，使得模式的描述更加灵活。常用的扩展正则表达式元字符包括：

|：表示或的关系。例如，a|b 匹配 a 或 b。

()：用于分组。例如，(ab)+ 匹配一个或多个连续的 ab。

三、文本处理器：grep

3.1 grep 简介

grep（Global Regular Expression Print）是一个强大的文本搜索工具，它可以在文件或标准输入中查找匹配指定正则表达式的行，并将匹配的行输出。

3.2 基本用法

3.2.1 简单搜索

假设我们有一个名为 test.txt 的文件，内容如下：

apple
banana
cherry
date

要查找包含 a 的行，可以使用以下命令：

grep 'a' test.txt

输出结果：

apple
banana
date

3.2.2 忽略大小写

如果要忽略大小写进行搜索，可以使用 -i 选项：

grep -i 'A' test.txt

输出结果与上面相同，因为 -i 选项使得搜索不区分大小写。

3.2.3 反向匹配

使用 -v 选项可以进行反向匹配，即输出不包含指定模式的行：

grep -v 'a' test.txt

输出结果：

cherry

3.2.4 显示行号

使用 -n 选项可以在输出结果中显示匹配行的行号：

grep -n 'a' test.txt

输出结果：

1:apple
2:banana
4:date

3.3 使用扩展正则表达式

要使用扩展正则表达式，需要加上 -E 选项。例如，要查找包含 a 或 b 的行：

grep -E 'a|b' test.txt

输出结果：

apple
banana

四、文本处理器：sed

4.1 sed 简介

sed（Stream Editor）是一个流编辑器，它可以对文本进行逐行处理，实现替换、删除、插入等操作。

4.2 基本用法

4.2.1 替换操作

假设我们有一个名为 test.txt 的文件，内容如下：

apple
banana
cherry
date

要将所有的 a 替换为 X，可以使用以下命令：

sed 's/a/X/g' test.txt

输出结果：

Xpple
bXnXnX
cherry
dXte

其中，s 表示替换操作，a 是要替换的模式，X 是替换后的内容，g 表示全局替换（即一行中所有匹配的部分都进行替换）。

4.2.2 删除操作

要删除包含 a 的行，可以使用以下命令：

sed '/a/d' test.txt

输出结果：

cherry

其中，/a/ 是匹配模式，d 表示删除操作。

4.2.3 插入操作

要在每行的开头插入 >>，可以使用以下命令：

sed 's/^/>>/' test.txt

输出结果：

>>apple
>>banana
>>cherry
>>date

其中，^ 表示行的开头，/>>/ 是要插入的内容。

4.3 高级用法

4.3.1 分组和反向引用

假设我们有一个文件 test.txt，内容如下：

John Doe
Jane Smith

要将名字和姓氏交换位置，可以使用分组和反向引用：

sed 's/\(.*\) \(.*\)/\2, \1/' test.txt

输出结果：

Doe, John
Smith, Jane

其中，$.*$ 用于分组，\1 和 \2 分别表示第一个和第二个分组的内容。

五、文本处理器：awk

5.1 awk 简介

awk 是一种强大的文本处理工具，它可以对文本进行逐行处理，支持变量、数组、条件语句、循环语句等，常用于数据处理和报表生成。

5.2 基本用法

5.2.1 打印指定列

假设我们有一个名为 test.txt 的文件，内容如下：

1 apple 5
2 banana 3
3 cherry 7

要打印第二列的内容，可以使用以下命令：

awk '{print $2}' test.txt

输出结果：

apple
banana
cherry

其中，$2 表示第二列的内容。

5.2.2 条件判断

要打印第三列大于 5 的行，可以使用以下命令：

awk '$3 > 5 {print}' test.txt

输出结果：

3 cherry 7

其中，$3 > 5 是条件判断，{print} 表示满足条件时打印整行。

5.2.3 统计操作

要统计第三列的总和，可以使用以下命令：

awk '{sum += $3} END {print sum}' test.txt

输出结果：

其中，sum += $3 用于累加第三列的值，END 表示在处理完所有行后执行的操作。

5.3 高级用法

5.3.1 数组的使用

假设我们有一个文件 test.txt，内容如下：

apple 5
banana 3
apple 2
cherry 7

要统计每种水果的数量，可以使用数组：

awk '{count[$1] += $2} END {for (fruit in count) print fruit, count[fruit]}' test.txt

输出结果：

apple 7
banana 3
cherry 7

其中，count[$1] 是一个数组，用于记录每种水果的数量。

六、综合应用案例

6.1 日志分析

假设我们有一个服务器日志文件 server.log，内容如下：

2025-04-16 10:00:00 [INFO] User John logged in.
2025-04-16 10:01:00 [ERROR] Database connection failed.
2025-04-16 10:02:00 [INFO] User Jane logged in.
2025-04-16 10:03:00 [WARNING] Disk space is low.

6.1.1 查找错误日志

要查找所有的错误日志，可以使用以下命令：

grep -E '\[ERROR\]' server.log

输出结果：

2025-04-16 10:01:00 [ERROR] Database connection failed.

6.1.2 统计每种日志类型的数量

要统计每种日志类型（INFO、ERROR、WARNING）的数量，可以使用 awk：

awk '{count[$2]++} END {for (type in count) print type, count[type]}' server.log

输出结果：

[INFO] 2
[ERROR] 1
[WARNING] 1

6.2 数据清洗

假设我们有一个包含电话号码的文件 phones.txt，内容如下：

123-456-7890
(234) 567-8901
345.678.9012

要将所有电话号码统一格式为 xxx-xxx-xxxx，可以使用 sed：

sed -E 's/[^0-9]/-/g; s/(-)+/-/g; s/^-//; s/-$//; s/^([0-9]{3})([0-9]{3})([0-9]{4})/\1-\2-\3/' phones.txt

输出结果：

123-456-7890
234-567-8901
345-678-9012

七、总结

正则表达式和文本处理器（grep、sed、awk）是 Shell 编程中非常重要的工具，它们可以帮助我们高效地处理各种文本数据。通过掌握正则表达式的基本语法和文本处理器的使用方法，我们可以完成文本搜索、替换、提取、统计等各种任务。在实际应用中，我们可以根据具体需求选择合适的工具和方法，结合使用这些工具可以发挥出更强大的功能。