正则表达式与文本处理器

最新推荐文章于 2023-09-03 08:14:10 发布

青春秃头少年爱做梦

最新推荐文章于 2023-09-03 08:14:10 发布

阅读量163

点赞数

文章标签： linux

本文链接：https://blog.csdn.net/Broccoli_QZ/article/details/120397986

版权

文章目录

前言
一、正则表达式
二、关于三剑客
总结

前言

正则表达式在学会了shell编程语言之后是必须要学会运用的，像特殊字符的判断以及目录的更改都需要用到正则表达式，其中必会的三个工具也就是大家或多或少都有所耳闻的Linux三剑客：grep、awk、sed。

一、正则表达式

1.了解正则表达式

正则表达式，又称规则表达式。（英语：Regular Expression），在代码中常简写为 regex、regexp 或 RE），计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。
正则表达式不只有一种，而且 LINUX 中不同的程序可能会使用不同的正则表达式，
如：工具：grep sed awk egrep
正则表达式通常用于判断语句中，用来检查某一字符串是否满足某一格式。
正则表达式是由普通字符与元字符组成
普通字符包括大小写字母、数字、标点符号及一些其他符号
元字符是指在正则表达式中具有特殊意义的专用字符，可以用来规定其前导字符（即位于元字符前面的字符）在目标对象中的出现模式

2.基础正则表达式（BRE）

基础正则表达式常见元字符：(支持的工具：grep、egrep、sed、awk)
特殊字符
\：转义符，将特殊字符进行转义，忽略其特殊意义a\.b匹配a.b，但不能匹配ajb，.被转义为特殊意义

^：匹配行首，^则是匹配字符串的开始^tux匹配以tux开头的行

$：匹配行尾，$则是匹配字符串的结尾tux$匹配以tux结尾的行

.：匹配除换行符\n之外的任意单个字符，awk则中可以ab.匹配abc或bad，不可匹配abcd或abde，只能匹配单字符

[]：匹配list列表中的一个字符 例： go[ola]d，[abc]、[a-z]、[a-z0-9]

[^]：匹配任意不在list列表中的一个字符 例： [^a-z]、[^0-9]、[^A-Z0-9]

*：匹配前面子表达式0次或者多次 例：goo*d、go.*d

\{n\} :匹配前面的子表达式n次，例:go\{2\}d、'[O-9]\{2\}'匹配两位数字

\{n,\}:匹配前面的子表达式不少于n次，例: go\{2,\}d、' [0-9]\{2,\}'匹配两位及两位以上数宁

\{n,m\}﹔匹配前面的子表达式n到m次，例: go\{2,3\)d、'[0-9]\{2,3\}'匹配两位到三位数字

注: egrep、awk使用{n}、{n, }、{n, m}匹配时“{}"前不用加"\”

3.扩展正则表达式（ERE）

扩展正则表达式（支持的工具：egrep、awk）

+	作用：重复一个或者一个以上的前一个字符
示例：执行“egrep -n 'wo+d' test.txt”命令，即可查询"wood" "woood" "woooooood"等字符串

?	作用：零个或者一个的前一个字符
示例：执行“egrep -n 'bes?t' test.txt”命令，即可查询“bet”“best”这两个字符串

|	作用：使用或者（or）的方式找出多个字符
示例：执行“egrep -n 'of|is|on' test.txt”命令即可查询"of"或者"if"或者"on"字符串

()	作用：查找“组”字符串
示例：“egrep -n 't(a|e)st' test.txt”。“tast”与“test”因为这两个单词的“t”与“st”是重复的，所以将“a”与“e”
列于“()”符号当中，并以“|”分隔，即可查询"tast"或者"test"字符串

()+	作用：辨别多个重复的组
示例：“egrep -n 'A(xyz)+C' test.txt”。该命令是查询开头的"A"结尾是"C"，中间有一个以上的"xyz"字符串的意思

二、关于三剑客

1.grep

-a ：将 binary 文件以 text 文件的方式搜寻数据
-c ：计算找到 '搜寻字符串' 的次数
-i ：忽略大小写的不同，所以大小写视为相同
-n ：顺便输出行号
-v ：反向选择，亦即显示出没有 '搜寻字符串' 内容的那一行
--color=auto ：可以将找到的关键词部分加上颜色的显示

例1：查找特定字符
查找特定字符非常简单，如执行以下命令即可从 test.txt 文件中查找出特定字符“the”所在位置。
其中“-n”表示显示行号、“-i”表示不区分大小写。
命令执行后，符合匹配标准的字符，字体颜色会变为红色。
在这里插入图片描述

若反向选择，如查找不包含“the”字符的行，则需要通过 grep 命令的“-v”选项实现，并配合“-n”一起使用显示行号。

例2：利用中括号“[]”来查找集合字符

想要查找“shirt”与“short”这两个字符串时，可以发现这两个字符串均包含“sh”与“rt”。
此时执行以下命令即可同时查找到“shirt”与“short”这两个字符串，其中“[]”中无论有几个字符，
都仅代表一个字符，也就是说“[io]”表示匹配“i”或者“o”。
在这里插入图片描述

例3：前面提到，在正则表达式中小数点（.）也是一个元字符，代表任意一个字符。

2.sed

sed（Stream EDitor）是一个强大而简单的文本解析转换工具，可以读取文本，并根据指定的条件对文本内容进行编辑（删除、替换、添加、移动等），最后输出所有行或者仅输出处理的某些行。
sed 也可以在无交互的情况下实现相当复杂的文本处理操作，被广泛应用于 Shell 脚本中，用以完成各种自动化处理任务。

工作原理：读取——执行——显示
1.数据：将文件里的内容逐行取出放进模式空间
2.模式空间：在模式空间里匹配条件进行数据处理
3.显示：处理完之后再从模式空间中去除输出到屏幕

sed 的工作流程主要包括读取、执行和显示三个过程。
读取：sed 从输入流（文件、管道、标准输入）中读取一行内容并存储到临时的缓冲区中（又称模式空间，pattern space）。

执行：默认情况下，所有的 sed 命令都在模式空间中顺序地执行，除非指定了行的地址，否则 sed 命令将会在所有的行上依次执行。

显示：发送修改后的内容到输出流。在发送数据后，模式空间将会被清空。
在所有的文件内容都被处理完成之前，上述过程将重复执行，直至所有内容被处理完。

注意：默认情况下所有的 sed 命令都是在模式空间内执行的，因此输入的文件并不会发生任何变化，除非是用重定向存储输出。

sed 命令常见用法
通常情况下调用 sed 命令有两种格式，如下所示。其中，“参数”是指操作的目标文件，当存在多个操作对象时用，文件之间用逗号“，”分隔；而 scriptfile 表示脚本文件，需要用“-f” 选项指定，当脚本文件出现在目标文件之前时，表示通过指定的脚本文件来处理输入的目标文件。

sed [选项] ‘操作’ 参数
sed [选项] -f scriptfile 参数

常见的 sed 命令选项主要包含以下几种。
-e 或--expression=：表示用指定命令或者脚本来处理输入的文本文件。
-f 或--file=：表示用指定的脚本文件来处理输入的文本文件。
-h 或--help：显示帮助。
-n、--quiet 或 silent：表示仅显示处理后的结果。
-i：直接编辑文本文件。

“操作”用于指定对文件操作的动作行为，也就是 sed 的命令。通常情况下是采用的“[n1[,n2]]”操作参数的格式。
n1、n2 是可选的，代表选择进行操作的行数，如操作需要在 5～ 20 行之间进行，则表示为“5，20 动作行为”。
常见的操作包括以下几种。
a：增加，在当前行下面增加一行指定内容。
c：替换，将选定行替换为指定内容。
d：删除，删除选定的行。
i：插入，在选定行上面插入一行指定内容。
p：打印，如果同时指定行，表示打印指定行；如果不指定行，则表示打印所有内容；如果有非打印字符，
则以 ASCII 码输出。其通常与“-n”选项一起使用。
s：替换，替换指定字符。
y：字符转换。

例1：输出3-5行内容
在这里插入图片描述

例2：输出所有奇数行，n表示读入下一行资料

例3：输出以Th开头的行

3.awk

概述：
AWK 是一种处理文本文件的语言，是一个强大的文本分析工具。
它是专门为文本处理设计的编程语言，也是行处理软件，通常用于扫描、过滤、统计汇总工作数据可以来自标准输入也可以是管道或文件
它于20世纪70年代诞生于贝尔实验室，现在centos7用的是gawk
之所以叫 AWK 是因为其取了三位创始人 Alfred Aho，Peter Weinberger, 和 Brian Kernighan 的 Family Name 的首字符。

工作原理：
当读到第一行时，匹配条件，然后执行指定动作，再接着读取第二行数据处理，不会默认输出，如果没有定义匹配条件默认是匹配所有数据行，awk隐含循环，条件匹配多少次动作就会执行多少次。

逐行读取文本，默认以空格或tab键为分隔符进行分隔，将分隔所得的各个字段保存到内建变量中，并按模式或者条件执行编辑命令。
sed命令常用于一整行的处理，而awk比较倾向于将一行分成多个"“字段"然后再进行处理。
awk信息的读入也是逐行读取的，执行结果可以通过print的功能将字段数据打印显示。在使用awk命令的过程中,可以使用逻辑操作符” &“表示"与”、"||表示"或"、"!“表示非”;还可以进行简单的数学运算
如：
+、一、*、/、%、^分别表示加、减、乘、除、取余和乘方。

命令格式:

awk 选项 '模式或条件{操作}' 文件1 文件2 ...
awk -f 脚本文件 文件1  文件2 ..

awk 包含几个特殊的内建变量（可直接用）如下所示：
FS：指定每行文本的字段分隔符，默认为空格或制表位。
NF：当前处理的行的字段个数。
NR：当前处理的行的行号（序数）。
$0：当前处理的行的整行内容。
$n：当前处理行的第 n 个字段（第 n 列）。
FILENAME：被处理的文件名。

RS:行分隔符。awk从文件上读取资料时,将根据Rs的定义把资料切割成许多条记录, 而awk一次仅读入一条记录,
以进行处理。预设值是" \n'
简说：数据记录分隔，默认为\n，即每行为一条记录

例1：输出所有类容
在这里插入图片描述

例2：输出1-3行的内容

例3：输出第1行第3行的内容
在这里插入图片描述
例4：输出以root开头的行，Th开头的行

例5：调用w命令用来统计在线用户数量

总结

grep是文本检索命令，用于搜索文本或文本中的内容
sed是文本处理，用于修改文本中的内容
awk是一个强大的编辑工具，相对于grep和sed比较复杂，不过这也是它功能强大的原因，并且三剑客都可以在脚本中得以运用

青春秃头少年爱做梦

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
正则表达式与文本处理器

文章目录前言一、正则表达式1.了解正则表达式2.基础正则表达式（BRE）3.扩展正则表达式（ERE）二、关于三剑客1.grep2.sed3.awk总结前言正则表达式在学会了shell编程语言之后是必须要学会运用的，像特殊字符的判断以及目录的更改都需要用到正则表达式，其中必会的三个工具也就是大家或多或少都有所耳闻的Linux三剑客：grep、awk、sed。一、正则表达式1.了解正则表达式正则表达式，又称规则表达式。（英语：Regular Expression），在代码中常简写为 regex、reg
复制链接

扫一扫