linux正则表达式基础记录

Fresh_Ape

已于 2022-07-04 10:46:24 修改

阅读量158

点赞数

分类专栏： linux 文章标签：正则表达式 linux 运维

于 2022-07-04 10:33:04 首次发布

本文链接：https://blog.csdn.net/weixin_41592847/article/details/125556160

版权

linux 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

linux正则表达式基础记录

正则表达式

字符	描述
\	将下一个字符标记为一个特殊字符、或一个原义字符。例如，“n”匹配字符“n”。“\n”匹配一个换行符。序列“\”匹配“\”而“(”则匹配“(”。
^	匹配输入字符串的开始位置。注意:当^放到中括号内为排除字符，否则表示行首。
$	匹配输入字符串的结束位置。
{n}	n是一个非负整数。匹配确定的n次。例如，“o{2}”不能匹配“Bob”中的“o”，但是能匹配“food”中的两个o。
{n,}	n是一个非负整数。至少匹配n次。例如，“o{2,}”不能匹配“Bob”中的“o”，但能匹配“foooood”中的所有o。“o{1,}”等价于“o+”。“o{0,}”则等价于“o*”。
{n,m}	m和n均为非负整数，其中n<=m。最少匹配n次且最多匹配m次。例如，“o{1,3}”将匹配“fooooood”中的前三个o。“o{0,1}”等价于“o?”。请注意在逗号和两个数之间不能有空格。

| 匹配前面的子表达式零次或多次。例如，zo*能匹配“z”、“zo”以及“zoo”。*等价于{0,}。

| 匹配前面的子表达式一次或多次。例如，“zo+”能匹配“zo”以及“zoo”，但不能匹配“z”。+等价于{1,}。
? | 匹配前面的子表达式零次或一次。例如，“do(es)?”可以匹配“do”或“does”中的“do”。?等价于{0,1}。
? | 当该字符紧跟在任何一个其他限制符（*,+,?，{n}，{n,}，{n,m}）后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串“oooo”，“o+?”将匹配单个“o”，而“o+”将匹配所有“o”。
. | 匹配除“\n”之外的任何单个字符。要匹配包括“\n”在内的任何字符，请使用像“(.｜\n)”的模式。
(pattern) | 匹配pattern并获取这一匹配的子字符串。该子字符串用于向后引用。要匹配圆括号字符，请使用“(”或“)”。
x|y | 匹配x或y。例如，“z｜food”能匹配“z”或“food”。“(z｜f)ood”则匹配“zood”或“food”。
[xyz] | 字符集合（character class）。匹配所包含的任意一个字符。例如，“[abc]”可以匹配“plain”中的“a”。其中特殊字符仅有反斜线\保持特殊含义，用于转义字符。其它特殊字符如星号、加号、各种括号等均作为普通字符。脱字符^如果出现在首位则表示负值字符集合；如果出现在字符串中间就仅作为普通字符。连字符 - 如果出现在字符串中间表示字符范围描述；如果出现在首位则仅作为普通字符。
[^xyz] | 排除型（negate）字符集合。匹配未列出的任意字符。例如，“[^abc]”可以匹配“plain”中的“plin”。
[a-z] | 字符范围。匹配指定范围内的任意字符。例如，“[a-z]”可以匹配“a”到“z”范围内的任意小写字母字符。
[^a-z] | 排除型的字符范围。匹配任何不在指定范围内的任意字符。例如，“[^a-z]”可以匹配任何不在“a”到“z”范围内的任意字符。

优先级

运算符	说明
\	转义符
() (? : ) (?=) []	括号中括号
*、+、?、{n}、{n,}、{n,m}	限定符
^、$、\任何元字符	定位点和序列
\|	选择

grep命令

用于打印输出文本中匹配的模式串，它使用正则表达式作为模式匹配的条件。

grep支持三种正则表达式引擎，分别用三个参数指定：

参数	说明
-E	POSIX扩展正则表达式，ERE
-G	POSIX基本正则表达式，BRE
-P	Perl正则表达式，PCRE

grep 参数

参数	说明
-b	将二进制文件作为文本来进行匹配
-c	统计以模式匹配的数目
-i	忽略大小写
-n	显示匹配文本所在行的行号
-v	反选，输出不匹配行的内容
-r	递归匹配查找
-A n n为正整数，表示after的意思，除了列出匹配行之外，还列出后面的n行
-B n n为正整数，表示before的意思，除了列出匹配行之外，还列出前面的n行
–color=auto 将输出中的匹配项设置为自动颜色显示

//注意：其中\n为换行符

echo 'zero\nzo\nzoo' | grep 'z.*o'  // 将匹配以'z'开头以'o'结尾的所有字符串

echo 'zero\nzo\nzoo' | grep 'z.o'  //将匹配以'z'开头以'o'结尾，中间包含一个任意字符的字符串

echo 'zero\nzo\nzoo' | grep 'zo*'   //将匹配以'z'开头,以任意多个'o'结尾的字符串


echo '1234\nabcd' | grep '[a-z]'   //grep默认是区分大小写的，这里将匹配所有的小写字母

echo '1234\nabcd' | grep '[0-9]'   //将匹配所有的数字

echo '1234\nabcd' | grep '[[:digit:]]'   //将匹配所有的数字

echo '1234\nabcd' | grep '[[:lower:]]'   //将匹配所有的小写字母

echo '1234\nabcd' | grep '[[:upper:]]'   //将匹配所有的大写字母

echo '1234\nabcd' | grep '[[:alnum:]]'   //将匹配所有的字母和数字，包括0-9,a-z,A-Z

echo '1234\nabcd' | grep '[[:alpha:]]'   //将匹配所有的字母

特殊符号	说明
[:alnum:]	代表英文大小写字母及数字，亦即 0-9, A-Z, a-z
[:alpha:]	代表任何英文大小写字母，亦即 A-Z, a-z
[:blank:]	代表空白键与 [Tab] 按键两者
[:cntrl:]	代表键盘上面的控制按键，亦即包括 CR, LF, Tab, Del… 等等
[:digit:]	代表数字而已，亦即 0-9
[:graph:]	除了空白字节 (空白键与 [Tab] 按键) 外的其他所有按键
[:lower:]	代表小写字母，亦即 a-z
[:print:]	代表任何可以被列印出来的字符
[:punct:]	代表标点符号 (punctuation symbol)，亦即：" ’ ? ! ; : # $…
[:upper:]	代表大写字母，亦即 A-Z
[:space:]	任何会产生空白的字符，包括空白键, [Tab], CR 等等
[:xdigit:]	代表 16 进位的数字类型，因此包括： 0-9, A-F, a-f 的数字与字节

sed流编辑器

sed工具在 man 手册里面的全名为"sed - stream editor for filtering and transforming text "，意即，用于过滤和转换文本的流编辑器。

在 Linux/UNIX 的世界里敢称为编辑器的工具，大都非等闲之辈，

比如前面的"vi/vim(编辑器之神)",

“emacs(神的编辑器)”,

"gedit"这些个编辑器。

sed与上述的最大不同之处在于它是一个非交互式的编辑器。

基本格式

参数	说明
-n	安静模式，只打印受影响的行，默认打印输入数据的全部内容
-e	用于在脚本中添加多个执行命令一次执行，在命令行中执行多个命令通常不需要加该参数
-f filename	指定执行filename文件中的命令
-r	使用扩展正则表达式，默认为标准正则表达式
-i	将直接修改输入文件内容，而不是打印到标准输出设备

/**
* sed 命令基本格式
* sed [参数]... [执行命令] [输入文件]...
**/

$ sed -i 's/sad/happy/' test     //表示将test文件中的"sad"替换为"happy"

命令格式

/**
* sed执行命令格式
* [n1][,n2]command
* [n1][~step]command
**/

//其中一些命令可以在后面加上作用范围，形如：
$ sed -i 's/sad/happy/g' test   //表示全局范围
$ sed -i 's/sad/happy/4' test // 4表示指定行中的第四个匹配字符串

/**其中n1,n2表示输入内容的行号，

它们之间为,逗号则表示从n1到n2行，

如果为～波浪号则表示从n1开始以step为步进的所有行

command为执行动作：**/

命令	说明
s	行内替换
c	整行替换
a	插入到指定行的后面
i	插入到指定行的前面
p	打印指定行，通常与-n参数配合使用
d	删除指定行

//一些例子
// nl 差不多就是 cat -n

// /etc/passwd 最好 cp 一下
nl /etc/passwd | sed -n '2,5p'  // 打印2-5行

nl /etc/passwd | sed -n '1~2p'  //打印奇数行


 sed -n 's/shiyanlou/hehe/gp' passwd  
//将输入文本中"shiyanlou" 全局替换为"hehe",并只打印替换的那一行，注意这里不能省略最后的"p"命令

//删除第30行
nl passwd | grep "shiyanlou"
sed -i '30d' passwd
nl passwd | grep "shiyanlou"

sed 的模式空间和暂存空间

1、模式空间(pattern space)的定义：模式空间就是一个缓存区，保存sed刚刚从输入端读取的。

2、暂存空间(hold space)的定义：暂存空间就是在处理模式空间数据的时候，临时缓存数据用的。

g： 将hold space中的内容拷贝到pattern space中，原来pattern space里的内容清除

G： 将hold space中的内容append到pattern space\n后

h： 将pattern space中的内容拷贝到hold space中，原来的hold space里的内容被清除

H： 将pattern space中的内容append到hold space\n后

x： 交换pattern space和hold space的内容

讲解一

讲解二

sed '2,$G;h;$!d' test  //test倒序输出
// 看 讲解一

sed -n 'h;{n;G};p' test 
//奇偶交换
//先都移到暂存空间，{}内先执行 跳下一行 暂存添加到模式空间 清空输出输出

awk

AWK是一种优良的文本处理工具,

它允许您创建简短的程序，这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表，还有无数其他的功能。

最简单地说，AWK是一种用于处理文本的编程语言工具。

awk所有的操作都是基于pattern(模式)—action(动作)对来完成的，如下面的形式：

pattern {action}

你可以看到就如同很多编程语言一样，它将所有的动作操作用一对{}花括号包围起来。

其中pattern通常是表示用于匹配输入的文本的“关系式”或“正则表达式”，action则是表示匹配后将执行的动作。

在一个完整awk操作中，这两者可以只有其中一个，如果没有pattern则默认匹配输入的全部文本，如果没有action则默认为打印匹配内容到屏幕。

awk处理文本的方式，是将文本分割成一些“字段”，然后再对这些字段进行处理，默认情况下，awk以空格作为一个字段的分割符，不过这不是固定的，你可以任意指定分隔符

以下两例子

vim test  //创建一个文本 内容如下

I like linux
www.shiyanlou.com

awk '{print}' test  // 打印文本到终端 省略了pattern

//以下 将test的第一行的每个字段单独显示为一行
awk '{
if(NR==1){
print $1 "\n" $2 "\n" $3
} else {
print}
}' test

//或者
awk '{
if(NR==1){
OFS="\n"
print $1, $2, $3
} else {
print}
}' test

/**
NR与OFS，这两个是awk内建的变量，NR表示当前读入的记录数，你可以简单的理解为当前处理的行数，OFS表示输出时的字段分隔符，默认为" "空格

然后是$N其中N为相应的字段号，这也是awk的内建变量

，它表示引用相应的字段，

因为我们这里第一行只有三个字段，所以只引用到了$3

。除此之外另一个这里没有出现的$0，它表示引用当前记录（当前行）的全部内容

**/

//以下 将test的第二行的以点为分段的字段换成以空格为分隔

awk -F'.' '{
if(NR==2){
print $1 "\t" $2 "\t" $3
}}' test

或者
awk '
BEGIN{
FS="."
OFS="\t"  # 如果写为一行，两个动作语句之间应该以";"号分开  
}{
if(NR==2){
 print $1, $2, $3
}}' test

/**
说明：

这里的-F参数，前面已经介绍过，它是用来预先指定待处理记录的字段分隔符。

我们需要注意的是除了指定OFS我们还可以在print 语句中直接打印特殊符号如这里的\t，

print打印的非变量内容都需要用""一对引号包围起来。

上面另一个版本，展示了实现预先指定变量分隔符的另一种方式，即使用BEGIN，就这个表达式指示了，其后的动作将在所有动作之前执行，

这里是FS赋值了新的"."点号代替默认的" "空格


**/

变量名	说明
FILENAME	当前输入文件名，若有多个文件，则只表示第一个。如果输入是来自标准输入，则为空字符串
$0	当前记录的内容
$N	N表示字段号，最大值为NF变量的值
FS	字段分隔符，由正则表达式表示，默认为" "空格
RS	输入记录分隔符，默认为"\n"，即一行为一个记录
NF	当前记录字段数
NR	已经读入的记录数
FNR	当前输入文件的记录数，请注意它与NR的区别
OFS	输出字段分隔符，默认为" "空格
ORS	输出记录分隔符，默认为"\n"