一、 Awk 简介
Awk 是被设计用于文本处理,并通常被用作数据提取和报告工具的解释性程序设计语言
Awk 分别代表其三个作者姓氏的第一个字母: Alfred Aho 、Peter Weinberger、Brain Kernighan
目前在Linux中常用的是 awk 编译版本有 mawk 、gawk
以 RedHat 为代表使用的是 gawk,以Ubuntu为代表使用的是 mawk
gawk 是GUN Project 的 awk解释器的开源代码实现
CentOS 当然也用的是gawk
二、awk处理机制:
根据模式一次从文件中抽取一行文本,对这行文本进行切片(默认使用空白字符作为分隔符)
[root@localhost mnt]# cat test
this | is | a | file
$1 $2 $3 $4
[root@localhost mnt]# awk '{print $0}' test
this is a file
[root@localhost mnt]# awk '{print $1}' test
this
[root@localhost mnt]# awk '{print $2}' test
is
[root@localhost mnt]# awk '{print $3}' test
a
[root@localhost mnt]# awk '{print $4}' test
file
[root@localhost mnt]# awk '{print $1,$2}' test
this is
[root@localhost mnt]# awk '{print $1$2}' test
thisis
以:为分隔符,打印文件/etc/passwd的第一列和第三列
[root@localhost mnt]# awk -F ":" '{print $1,$3}' /etc/passwd
root 0
bin 1
daemon 2
...
三、awk的常用变量
打印文件/etc/passwd的文件命令和行号
[root@localhost mnt]# awk '{print FILENAME,NR}' /etc/passwd
/etc/passwd 1
/etc/passwd 2
/etc/passwd 3
/etc/passwd 4
...
打印文件/etc/passwd的行号和以":"为分隔符的字段个数
[root@localhost mnt]# awk -F: '{print NR,NF}' /etc/passwd
1 7
2 7
3 7
4 7
输出文件/etc/passwd以/bash结尾的行
[root@localhost mnt]# awk -F: '/bash$/{print}' /etc/passwd
root:x:0:0:root:/root:/bin/bash
student:x:1000:1000:Student User:/home/student:/bin/bash
输出/etc/passwd的第三行
[root@localhost mnt]# awk -F: 'NR==3 {print}' /etc/passwd
daemon:x:2:2:daemon:/sbin:/sbin/nologin
输出/etc/passwd的偶数行
[root@localhost mnt]# awk -F: 'NR % 2 ==0 {print}' passwd
bin:x:1:1:bin:/bin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
输出/etc/passwd的第三行到第五行
[root@localhost mnt]# awk -F: 'NR >=3 && NR <=5 {print}' passwd
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
输出/etc/passwd下uid小于等于2的用户名和uid
[root@localhost mnt]# awk -F: '$# >=0 && $3 <=2 {print $1,$3}' /etc/passwd
root 0
bin 1
daemon 2
Awk 的两个特殊模式
BEGIN 和 END,BEGIN 被放置在没有读取任何数据之前,而 END 被放置在所有的数据读取完成以后执行
体现如下:
BEGIN{}: 读入第一行文本之前执行的语句,一般用来初始化操作
{}: 逐行处理
END{}: 处理完最后以行文本后执行,一般用来处理输出结果
实例:
文件开头加REDHAT,末尾加WESTOS,打印行号和内容
[root@localhost mnt]# awk -F: 'BEGIN {print "REDHAT"} {print NR;print} END {print "WESTOS"}' passwd
REDHAT
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
WESTOS
统计文本总字段个数
[root@localhost mnt]# vim test.txt
hui hui XX
XX
XX ni Xx
[root@localhost mnt]# awk 'BEGIN{i=0}{i+=NF}END{print i}' test.txt
7
二、Awk高级应用
1. if单分支语句
统计登录shell为bash的用户
[root@localhost mnt]# awk -F: 'BEGIN{i=0}{if($7~/bash$/){i++}}END{print i}' /etc/passwd
2
统计/etc/passwd下uid小于500的用户个数
[root@localhost mnt]# awk -F: 'BEGIN{i=0}{if($3<500){i++}}END{print i}' /etc/passwd
31
2. if双分支语句
统计uid小于等于500和大于500的用户个数
[root@localhost mnt]# awk -F: 'BEGIN{i=0;j=0}{if($3<=500){i++}else{j++}}END{print i,j}' /etc/passwd
31 9
1
2
3. for循环
生成1-5序列
[root@localhost mnt]# awk 'BEGIN{for(i=1;i<=5;i++){print i}}'
1
2
3
4
5
[root@localhost mnt]# seq 5 ##seq命令可以直接生成
1
2
3
4
5
4. while循环
语法一:
[root@test ~]# awk 'i=1 {} BEGIN {while (i<3) {++i;print i}}' test.txt
1
2
3
[root@test ~]#
语法二:
[root@test ~]# awk 'BEGIN {do {++i;print i} while (i<3)}' test.txt
1
2
3
[root@test ~]#