awk 高级用法

1 awk介绍

awk简介
awk是GNU的项目之一,是基于早期unix上的awk程序语言改善而来,所以现在我们在CentOS上用的awk其实是叫gawk。awk的作者这三个人:Aho,Kernighan,Weinberger,awk的命名方式是通过这三个人的名字的首字母而来。因为人们习惯用awk,所以后来干脆把awk创建了一个指向gawk的符号链接。实际上 AWK 的确拥有自己的语言: AWK 程序设计语言 , 三位创建者已将它正式定义为“样式扫描和处理语言”。

awk 编程语言,用于在linux/unix下对文本和数据进行处理。数据可以来自标准输(stdin)、一个或多个文件,或其它命令的输出。它在命令行中使用,但更多是作为脚本来使用。awk有很多内建的功能,比如数组、函数等,这是它和C语言的相同之处,灵活性是awk最大的优势

awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理

2、基本语法

//awk [选项] ‘脚本命令’ 文件名

awk [选项参数] 'script' var=value file(s)

或者

awk [选项参数] -f scriptfile var=value file(s)

常用的选项参数

参数注释
-F指定输入文件拆分隔符,fs是一个字符串或者是一个正侧表达式,如-F
-v赋值一个用户定义变量
-f从脚本中读取awk命令
-W在兼容模式下运行awk。所以gawk的行为和标准的awk完全一样,所有的awk扩展都被忽略。
’ ’引用代码块
//匹配代码块,可以是字符串或正则表达式
{}命令代码块,包含一条或多条命令
;多条命令使用分号分隔
BEGIN–在 awk 程序一开始,未读取任何数据之前执行。BEGIN 后的动作只在程序开始时执行一次
END在 awk 程序处理完所有数据,即将结束时执行?END 后的动作只在程序结束时执行一次

awk内置变量

变量 说明
$0 表示整个当前行
$1 ~ $n 当前记录的第N个字段
FS 输入字段分隔符(-F相同作用)默认空格
RS 输入记录分割符,默认换行符(即文本是按一行一行输入)
NF 字段个数就是列
NR 记录数,就是行号,默认从1开始
FNR 与NR类似,不过多文件记录不递增,每个文件都从1开始
OFS 输出字段分隔符,默认空格
ORS 输出记录分割符,默认换行符
\t 制表符
\n 换行符
~ 匹配,与==相比不是精确比较
!~ 不匹配,不精确比较
== 等于,必须全部相等,精确比较
!= 不等于,精确比较
&& 逻辑与
+ 匹配时表示1个或1个以上
[0-9][0-9]+ 两个或两个以上数字
[0-9][0-9]* 一个或一个以上数字

3 awk命令演示

匹配模式

[root@node2 ~]# cat test 
This line of data is ingored
                                              //空行



[root@node2 ~]# awk '/^$/{print "This is a blank line."}' test 
This is a blank line.
This is a blank line.
This is a blank line.
This is a blank line.
[root@node2 ~]# awk '/data/' test 
This line of data is ingored


记录和字段

[root@node2 ~]# echo 'zhangsan lisi wangwu'|awk '{print $3}'  //打印第三个字段
wangwu

[root@node2 ~]# echo 'zhangsan lisi wangwu'|awk 'BEGIN{one=1;tow=2}{print $(one + tow)}'    //定义变量打印$3,第三个字段
wangwu

// 打印出inet IP
[root@node2 ~]# ip a
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
    inet6 ::1/128 scope host 
       valid_lft forever preferred_lft forever
2: ens160: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc fq_codel state UP group default qlen 1000
    link/ether 00:0c:29:45:ec:b2 brd ff:ff:ff:ff:ff:ff
    inet 192.168.25.140/24 brd 192.168.25.255 scope global noprefixroute ens160
       valid_lft forever preferred_lft forever
    inet6 fe80::20c:29ff:fe45:ecb2/64 scope link 
       valid_lft forever preferred_lft forever
3: virbr0: <NO-CARRIER,BROADCAST,MULTICAST,UP> mtu 1500 qdisc noqueue state DOWN group default qlen 1000
    link/ether 52:54:00:21:c2:3a brd ff:ff:ff:ff:ff:ff
    inet 192.168.122.1/24 brd 192.168.122.255 scope global virbr0
       valid_lft forever preferred_lft forever
4: virbr0-nic: <BROADCAST,MULTICAST> mtu 1500 qdisc fq_codel master virbr0 state DOWN group default qlen 1000
    link/ether 52:54:00:21:c2:3a brd ff:ff:ff:ff:ff:ff

[root@node2 ~]# ip a|grep 'inet '|grep -v '127.0.0.1'|awk -F '[ /]+' '{print $3}'
192.168.25.140
192.168.122.1


字段的划分
awk可以使用三种方法来分割字段

第一个方法是用空白字符来分隔字段。将FS设置为一个空格。在这种情况下,记录的前导空白字符和结尾空白字符(空格和/或制表符)将被忽略。并且字段空格和/或制表位来分隔。因为FS的默认值为一个空格,所以这也是通常情况下awk将记录划分为字段的方法。
第二个方法是使用其他单个字符来分隔字段。例如,awk程序经常使用“:”作为分隔符。当FS表示任何单个字符时,在这个字符出现的任何地方都将分隔出另外一个字段。如果出现两个连续的分隔符,在它们之间的字段值为空串。
方法是,如果你设置了不止一个字符作为字段分隔符,它将被作为一个正则表达式来解释。

[root@node2 ~]# cat passwd 
root:x:0:0 root:/root:/bin/bash
bin:x:1:1 bin:/bin:/sbin/nologin
daemon:x:2:2 daemon:/sbin:/sbin/nologin
[root@node2 ~]# awk '{print $2}' passwd 
root:/root:/bin/bash
bin:/bin:/sbin/nologin
daemon:/sbin:/sbin/nologin
[root@node2 ~]# awk 'BEGIN{FS=":"}{print $3}' passwd 
0
1
2

4 系统变量

awk 中有许多系统变量或内置变量。awk有两种类型的系统变量。第一种类型定义的变量默认值可以改变,例如默认的字段和记录分隔符。第二种类型定义的变量的值可用于报告或数据处理中。例如当前记录中字段的数量,当前记录的数量等。这些可以由 awk自动更新,例如,当前记录的编号和输入文件名。

OFS输出字段分隔符
OFS是和FS等效的输出分隔符,他的默认值为空格

daemon:x:2:2 daemon:/sbin:/sbin/nologin
[root@node2 ~]# awk '' passwd 
[root@node2 ~]# awk '' passwd 
[root@node2 ~]# cat passwd 
root:x:0:0 root:/root:/bin/bash
bin:x:1:1 bin:/bin:/sbin/nologin
daemon:x:2:2 daemon:/sbin:/sbin/nologin

[root@node2 ~]# awk 'BEGIN{FS=":"}{print $1,$6}' passwd 
root /bin/bash
bin /sbin/nologin
daemon /sbin/nologin

[root@node2 ~]# awk 'BEGIN{FS=":";OFS="-"}{print $1,$6}' passwd 
root-/bin/bash
bin-/sbin/nologin
daemon-/sbin/nologin


NF字段数量变量
NF变量定义为当前输入记录的字段个数(即有几列)

[root@node2 ~]# cat run 
john 85 92 78 94 88
andrea 89 90 75 90 86 92
jasper 84 88 80 92 84 94 83

[root@node2 ~]# awk '{print NF}' run 
6
7
8

[root@node2 ~]# awk '{print $NF}' run 
88
92
83


NR行号
NF变量定义为当前输入记录的字段个数(即有几列)

[root@node2 ~]# cat run 
john 85 92 78 94 88
andrea 89 90 75 90 86 92
jasper 84 88 80 92 84 94 83

[root@node2 ~]# awk '{print NR $1}' run 
1john
2andrea
3jasper

[root@node2 ~]# awk '{print NR "." $1}' run 
1.john
2.andrea
3.jasper

[root@node2 ~]# awk '{print NR "." $0}' run 
1.john 85 92 78 94 88
2.andrea 89 90 75 90 86 92
3.jasper 84 88 80 92 84 94 83



RS输入的记录分隔符
处理这种包括多行数据的记录,我们可以将字段分隔符定义为换行符,换行符用“\n”来表示,并将记录分隔符设置为空字符串,它代表一个空行。

[root@node2 ~]# cat run 
john 85 92 78 94 88
andrea 89 90 75 90 86 92
jasper 84 88 80 92 84 94 83
[root@node2 ~]# awk 'BEGIN{FS="\n";RS=""}{print $1}' run 
john 85 92 78 94 88
[root@node2 ~]# awk 'BEGIN{FS="\n";RS=""}{print $3}' run 
jasper 84 88 80 92 84 94 83


  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值