正则表达式之awk学习笔记

最新推荐文章于 2024-10-03 20:58:06 发布

weixin_34227447

最新推荐文章于 2024-10-03 20:58:06 发布

阅读量77

点赞数

文章标签： awk 操作系统

原文链接：http://blog.51cto.com/sunwangbackup/1719544

版权

awk正则表达式学习笔记

AWK是一个优良的文本处理工具，Linux及Unix环境中现有的功能最强大的数据处理引擎之一。这种编程及数据操作语言（其名称得

自于它的创始人阿尔佛雷德·艾侯、彼得·温伯格和布莱恩·柯林汉姓氏的首个字母）的最大功能取决于一个人所拥有的知识。在最初

创造 AWK 时，其目的是用于文本处理，并且这种语言的基础是，只要在输入数据中有模式匹配，就执行一系列指令。该实用工具扫

描文件中的每一行，查找与命令行中所给定内容相匹配的模式。如果发现匹配内容，则进行下一个编程步骤。如果找不到匹配内容，

则继续处理下一行。

gawk 是 AWK 的 GNU 版本。

注：sed和awk都是流式编辑器，是针对文档的行来操作的。

匹配：

awk -F ':' '{print $3,$4}' 1.txt

awk -F ':' 'OFS=":" {print $3,$4}' 1.txt //通过OFS=":"用冒号对匹配的结果进行分隔。注意加等于号。

#当文本文档某个段发生改变，文本文档会以空格为分隔符。如果想设置分隔符，就要使用OFS="".

awk -F ':' 'OFS="#" {print $3,$4}' 1.txt

awk -F ':' 'OFS=":" {print $3,$4,$1}' 1.txt //可以把$1放到最后。

awk '/user/' 1.txt //匹配User的行。

awk '/user|root/' 1.txt //匹配user或root的行。

awk '/r*o/' 1.txt

awk '/r?o/' 1.txt

awk '/r+o/' 1.txt

awk '/r.*o/' 1.txt //贪婪匹配。

awk '/(oo)+/' 1.txt //一个或多个（oo).

grep -E --color 'oo{2,10}' 1.txt //grep和sed都支持花括号。

sed -r -n '/(oo){2,10}/'p 1.txt

awk -F ':' '$1~/r*o/' 1.txt //~表示去匹配的意思。用$1去匹配/r*o/.

awk -F ':' '$1~/r*o/ {print $3}' 1.txt //用$1去匹配/r*o/,但只显示第三段。

awk -F ':' '$1~/r*o/ {print $1,$3};$1~/user/ {print $1,$3}' 1.txt

awk -F ':' '$1~/r*o/ {print $1,$3};$1~/nologin/ {print $1,$3}' 1.txt

#awk和sed是流编辑器，表达式相当过滤器，每一行都从过滤器穿过，如果匹配就显示出来。

#上述正则表达式有两个表达式，相当于两个过滤器。

awk -F ':' '$1~/r*o|nobody/ {print $1,$3}' 1.txt

条件操作符：

awk -F ':' '$1=="root"' 1.txt

awk -F ':' '$1=="root" {print $1}' 1.txt

awk -F ':' '$1=="nobody" || $7 ~/false/' 1.txt

awk -F ':' '$1=="nobody" && $7 ~/false/' 1.txt

awk -F ':' '$1>=500' 1.txt

awk -F ':' 'int($1)>=500' 1.txt //通过int()或*1，使$1被当成一个数值。

awk -F ':' '$3>=“500”' 1.txt //500加上双引号后，$3会通过ASC码的方式去排序。6也会被显示出来，因为它的ASC码值比5大。

awk -F":" '$7!="/sbin/nologin" ' 1.txt

awk -F":" '$7!~/nolog/' 1.txt //$7不匹配nolog.

awk -F ':' '$3<$4' 1.txt

awk -F ':' '$3==$4' 1.txt

awk -F ':' '$3=$4' 1.txt //把$4的值赋给$3.

awk -F ':' 'OFS=":";$3=$4' 1.txt

awk -F ':' 'OFS=":";{if($3>100) $7=$3+$4}' 1.txt

内置变量：

awk -F ':' 'NR<10' 1.txt //NR表示行。

awk -F ':' 'NR<10' 1.txt

awk -F ':' 'NR==10' 1.txt

awk -F ':' 'NR==10 {print $1,$5}' 1.txt

awk -F ':' '{if(NR==10) print $1,$5}' 1.txt

awk -F ':' 'OFS=":" {if(NR==10) print $1,$5}' 1.txt

awk -F ':' '{print NF}' 1.txt //NF表示段。

awk -F ':' '{if(NF==7) print $1}' 1.txt

awk -F ':' '{print $NR,$NF}' 1.txt

awk -F ':' '{print $7=$3+$4}' 1.txt

awk -F ':' '$7=$3+$4' 1.txt

awk -F ':' 'OFS=":" $7=$3+$4' 1.txt

awk -F ':' 'OFS=":" {$7=$3+$4 ;print $0}' 1.txt

#赋值&&判断语句放到花括号内部，OFS放到花括号外部。

awk -F":" '{(sum=sum+$3)};{print sum}' 1.txt //等价于awk -F":" '{(sum+=$3)};{print sum}' 1.txt

awk -F":" '{(sum=sum+$3)};END{print sum}' 1.txt //END表示循环结束。

截取文档中的某个段 :

-F //指定分隔符，如不加-F去指定，则默认以空格或TAB进行分隔。

print //表示打印动作，用来打印某个字段，$1表示第一字段，$2表示第二字段，$0表示整行。

EG:

awk -F ':' '{print $1}' //在suse中无法以#、@等进行分隔。

awk -F ':' '{print $0}' //打印整行。

awk -F ':' '{PRINT $1“#”$2“#”$3“#”$4}' //打印多个字段。#等分隔符用双引号，单引号无效。

匹配字符或字符串：

awk -F ':' '/root/' test001.txt //匹配root.

awk -F ':' '/root/ {print $1,$3} /man/ {print $1,$3}' test001.txt //先匹配root,后匹配man.

条件操作符:

awk -F ':' '$3=="0"' test001.txt

awk -F ':' '$3=="0" {print $3,$4}' test001.txt

awk -F ':' '$3>="500" {print $3}' test001.txt //此结果并没像预期所想一样，500被当成字符了。

awk -F ':' '$7!="/bin/false"' test001.txt // !=为不匹配。

awk -F ':' '$3>$4 {print $3,$4} ' test001.txt

awk -F ':' '$3>"100"&&$3<"65535" {print $3,$4}' test001.txt //此结果并没像预期所想一样，数字被当成字符了。

awk -F ':' '$3>"5" ||$7!="/bin/bash"' test001.txt

awk的内置变量

awk常用的变量有：

NF //用分隔符分隔后一共有多少段

NR //行数

awk -F ':' '/root/ {print $NF}' test001.txt

head -n3 test001.txt |awk -F ':' '{print NF}'

head -n3 test001.txt |awk -F ':' '{print NR}'

可以使用行号作为判断条件：

awk -F ':' 'NR>10' test001.txt

awk中的数学运算

awk可以把段值更改:

head -n3 test001.txt |awk -F ':' '$1="root"'

awk还可以对各个段的值进行数学运算：

head -n3 test001.txt |awk -F ':' '$7=$3+$4 {print $3,$4,$7}'

当然还可以计算某个段的总和

awk -F ':' '{(sum=sum+$3)};END{print sum}' test001.txt

awk -F ':' '{if($1=="root")print $0}' test001.txt

用awk 打印整个test.txt （以下操作都是用awk工具实现，针对test001.txt）

awk -F ':' '{print $0}' test001.txt

查找所有包含 ‘bash’ 的行

awk -F ':' '/bash/' test001.txt

用 ‘:’ 作为分隔符，查找第三段等于0的行

awk -F ':' '$3==0 ' test001.txt

用 ‘:’ 作为分隔符，查找第一段为 ‘root’ 的行，并把该段的 ‘root’ 换成 ‘toor’ (可以连同sed一起使用)

awk -F ':' '$1=="root"' test001.txt|sed 's/root/toor/g'

用 ‘:’ 作为分隔符，打印最后一段

awk -F ':' '{print $NF}' test001.txt

打印行数大于20的所有行

awk -F ':' 'NR>20' test001.txt

用 ‘:’ 作为分隔符，打印所有第三段小于第四段的行

awk -F ':' '$3<$4' test001.txt

用 ‘:’ 作为分隔符，打印第一段以及最后一段，并且中间用 ‘@’ 连接（例如，第一行应该是这样的形式 'root@/bin/bash‘ ）

awk -F ':' '{print $1"@"$NF}' test001.txt

用 ‘:’ 作为分隔符，把整个文档的第四段相加，求和

awk -F ':' '{(sum=sum+$4)};END{print sum}' test001.txt

//cat bigip_gtm.conf |grep wideip |awk '{print $3}' |awk -F "/" '{print $3}' > /tmp/domain.txt

转载于:https://blog.51cto.com/sunwangbackup/1719544

weixin_34227447

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫