awk 高级用法

养了一只皮卡丘

于 2021-09-21 21:39:55 发布

阅读量420

点赞数

分类专栏： shell脚本文章标签： centos linux

本文链接：https://blog.csdn.net/hyhxy0206/article/details/120405617

版权

shell脚本专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1 awk介绍

awk简介
awk是GNU的项目之一，是基于早期unix上的awk程序语言改善而来，所以现在我们在CentOS上用的awk其实是叫gawk。awk的作者这三个人：Aho，Kernighan，Weinberger，awk的命名方式是通过这三个人的名字的首字母而来。因为人们习惯用awk，所以后来干脆把awk创建了一个指向gawk的符号链接。实际上 AWK 的确拥有自己的语言： AWK 程序设计语言，三位创建者已将它正式定义为“样式扫描和处理语言”。

awk 编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输(stdin)、一个或多个文件，或其它命令的输出。它在命令行中使用，但更多是作为脚本来使用。awk有很多内建的功能，比如数组、函数等，这是它和C语言的相同之处，灵活性是awk最大的优势

awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理

2、基本语法

//awk [选项] ‘脚本命令’ 文件名

awk [选项参数] 'script' var=value file(s)

或者

awk [选项参数] -f scriptfile var=value file(s)

常用的选项参数

参数	注释
-F	指定输入文件拆分隔符，fs是一个字符串或者是一个正侧表达式，如-F
-v	赋值一个用户定义变量
-f	从脚本中读取awk命令
-W	在兼容模式下运行awk。所以gawk的行为和标准的awk完全一样，所有的awk扩展都被忽略。
’ ’	引用代码块
//	匹配代码块，可以是字符串或正则表达式
{}	命令代码块，包含一条或多条命令
;	多条命令使用分号分隔
BEGIN–	在 awk 程序一开始，未读取任何数据之前执行。BEGIN 后的动作只在程序开始时执行一次
END	在 awk 程序处理完所有数据，即将结束时执行?END 后的动作只在程序结束时执行一次

awk内置变量

变量说明

$0 表示整个当前行

$1 ~ $n 当前记录的第N个字段

FS 输入字段分隔符（-F相同作用）默认空格

RS 输入记录分割符，默认换行符(即文本是按一行一行输入)

NF 字段个数就是列

NR 记录数，就是行号，默认从1开始

FNR 与NR类似，不过多文件记录不递增，每个文件都从1开始

OFS 输出字段分隔符，默认空格

ORS 输出记录分割符，默认换行符

\t 制表符

\n 换行符

~ 匹配，与==相比不是精确比较

!~ 不匹配，不精确比较

== 等于，必须全部相等，精确比较

!= 不等于，精确比较

&& 逻辑与

+ 匹配时表示1个或1个以上

[0-9][0-9]+ 两个或两个以上数字

[0-9][0-9]* 一个或一个以上数字

3 awk命令演示

匹配模式

[root@node2 ~]# cat test 
This line of data is ingored
                                              //空行



[root@node2 ~]# awk '/^$/{print "This is a blank line."}' test 
This is a blank line.
This is a blank line.
This is a blank line.
This is a blank line.
[root@node2 ~]# awk '/data/' test 
This line of data is ingored

记录和字段

[root@node2 ~]# echo 'zhangsan lisi wangwu'|awk '{print $3}'  //打印第三个字段
wangwu

[root@node2 ~]# echo 'zhangsan lisi wangwu'|awk 'BEGIN{one=1;tow=2}{print $(one + tow)}'    //定义变量打印$3,第三个字段
wangwu

// 打印出inet IP
[root@node2 ~]# ip a
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
    inet6 ::1/128 scope host 
       valid_lft forever preferred_lft forever
2: ens160: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc fq_codel state UP group default qlen 1000
    link/ether 00:0c:29:45:ec:b2 brd ff:ff:ff:ff:ff:ff
    inet 192.168.25.140/24 brd 192.168.25.255 scope global noprefixroute ens160
       valid_lft forever preferred_lft forever
    inet6 fe80::20c:29ff:fe45:ecb2/64 scope link 
       valid_lft forever preferred_lft forever
3: virbr0: <NO-CARRIER,BROADCAST,MULTICAST,UP> mtu 1500 qdisc noqueue state DOWN group default qlen 1000
    link/ether 52:54:00:21:c2:3a brd ff:ff:ff:ff:ff:ff
    inet 192.168.122.1/24 brd 192.168.122.255 scope global virbr0
       valid_lft forever preferred_lft forever
4: virbr0-nic: <BROADCAST,MULTICAST> mtu 1500 qdisc fq_codel master virbr0 state DOWN group default qlen 1000
    link/ether 52:54:00:21:c2:3a brd ff:ff:ff:ff:ff:ff

[root@node2 ~]# ip a|grep 'inet '|grep -v '127.0.0.1'|awk -F '[ /]+' '{print $3}'
192.168.25.140
192.168.122.1

字段的划分
awk可以使用三种方法来分割字段

第一个方法是用空白字符来分隔字段。将FS设置为一个空格。在这种情况下，记录的前导空白字符和结尾空白字符（空格和/或制表符）将被忽略。并且字段空格和/或制表位来分隔。因为FS的默认值为一个空格，所以这也是通常情况下awk将记录划分为字段的方法。
第二个方法是使用其他单个字符来分隔字段。例如，awk程序经常使用“:”作为分隔符。当FS表示任何单个字符时，在这个字符出现的任何地方都将分隔出另外一个字段。如果出现两个连续的分隔符，在它们之间的字段值为空串。
方法是，如果你设置了不止一个字符作为字段分隔符，它将被作为一个正则表达式来解释。

[root@node2 ~]# cat passwd 
root:x:0:0 root:/root:/bin/bash
bin:x:1:1 bin:/bin:/sbin/nologin
daemon:x:2:2 daemon:/sbin:/sbin/nologin
[root@node2 ~]# awk '{print $2}' passwd 
root:/root:/bin/bash
bin:/bin:/sbin/nologin
daemon:/sbin:/sbin/nologin
[root@node2 ~]# awk 'BEGIN{FS=":"}{print $3}' passwd 
0
1
2

4 系统变量

awk 中有许多系统变量或内置变量。awk有两种类型的系统变量。第一种类型定义的变量默认值可以改变，例如默认的字段和记录分隔符。第二种类型定义的变量的值可用于报告或数据处理中。例如当前记录中字段的数量，当前记录的数量等。这些可以由 awk自动更新，例如，当前记录的编号和输入文件名。

OFS输出字段分隔符
OFS是和FS等效的输出分隔符，他的默认值为空格

daemon:x:2:2 daemon:/sbin:/sbin/nologin
[root@node2 ~]# awk '' passwd 
[root@node2 ~]# awk '' passwd 
[root@node2 ~]# cat passwd 
root:x:0:0 root:/root:/bin/bash
bin:x:1:1 bin:/bin:/sbin/nologin
daemon:x:2:2 daemon:/sbin:/sbin/nologin

[root@node2 ~]# awk 'BEGIN{FS=":"}{print $1,$6}' passwd 
root /bin/bash
bin /sbin/nologin
daemon /sbin/nologin

[root@node2 ~]# awk 'BEGIN{FS=":";OFS="-"}{print $1,$6}' passwd 
root-/bin/bash
bin-/sbin/nologin
daemon-/sbin/nologin

NF字段数量变量
NF变量定义为当前输入记录的字段个数(即有几列)

[root@node2 ~]# cat run 
john 85 92 78 94 88
andrea 89 90 75 90 86 92
jasper 84 88 80 92 84 94 83

[root@node2 ~]# awk '{print NF}' run 
6
7
8

[root@node2 ~]# awk '{print $NF}' run 
88
92
83

NR行号
NF变量定义为当前输入记录的字段个数(即有几列)

[root@node2 ~]# cat run 
john 85 92 78 94 88
andrea 89 90 75 90 86 92
jasper 84 88 80 92 84 94 83

[root@node2 ~]# awk '{print NR $1}' run 
1john
2andrea
3jasper

[root@node2 ~]# awk '{print NR "." $1}' run 
1.john
2.andrea
3.jasper

[root@node2 ~]# awk '{print NR "." $0}' run 
1.john 85 92 78 94 88
2.andrea 89 90 75 90 86 92
3.jasper 84 88 80 92 84 94 83

RS输入的记录分隔符
处理这种包括多行数据的记录，我们可以将字段分隔符定义为换行符，换行符用“\n”来表示，并将记录分隔符设置为空字符串，它代表一个空行。

[root@node2 ~]# cat run 
john 85 92 78 94 88
andrea 89 90 75 90 86 92
jasper 84 88 80 92 84 94 83
[root@node2 ~]# awk 'BEGIN{FS="\n";RS=""}{print $1}' run 
john 85 92 78 94 88
[root@node2 ~]# awk 'BEGIN{FS="\n";RS=""}{print $3}' run 
jasper 84 88 80 92 84 94 83

养了一只皮卡丘

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
awk 高级用法

1 awk介绍awk简介awk是GNU的项目之一，是基于早期unix上的awk程序语言改善而来，所以现在我们在CentOS上用的awk其实是叫gawk。awk的作者这三个人：Aho，Kernighan，Weinberger，awk的命名方式是通过这三个人的名字的首字母而来。因为人们习惯用awk，所以后来干脆把awk创建了一个指向gawk的符号链接。实际上 AWK 的确拥有自己的语言： AWK 程序设计语言，三位创建者已将它正式定义为“样式扫描和处理语言”。awk 编程语言，用于在linux/uni
复制链接

扫一扫

专栏目录