awk简介
awk其名称得自于它的创始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首个字母。实际上 AWK 的确拥有自己的语言: AWK 程序设计语言 , 三位创建者已将它正式定义为“样式扫描和处理语言”。它允许您创建简短的程序,这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表,还有无数其他的功能
。
awk 是一种很棒的语言,它适合文本处理和报表生成
,其语法较为常见,借鉴了某些语言的一些精华,如 C 语言等。在 linux 系统日常处理工作中,发挥很重要的作用,掌握了 awk将会使你的工作变的高大上。 awk 是三剑客的老大,利剑出鞘,必会不同凡响。
使用方法
awk '{pattern + action}' {filenames}
pattern 表示 AWK 在数据中查找的内容,而 action 是在找到匹配内容时所执行的一系列命令
花括号({})不需要在程序中始终出现,但它们用于根据特定的模式对一系列指令进行分组
pattern就是要表示的正则表达式,用斜杠括起来
awk语言的最基本功能是在文件或者字符串中基于指定规则浏览和抽取信息,awk抽取信息后,才能进行其他文本操作。完整的awk脚本通常用来格式化文本文件中的信息。
通常,awk是以文件的一行为处理单位的。awk每接收文件的一行,然后执行相应的命令,来处理文本。
awk的原理
通过一个简短的命令,我们来了解其工作原理
[root@Gin scripts]# awk '{print $0}' /etc/passwd
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
.....................................................
[root@Gin scripts]# echo hhh|awk '{print "hello,world"}'
hello,world
[root@Gin scripts]# awk '{print "hiya"}' /etc/passwd
hiya
hiya
hiya
hiya
你将会见到/etc/passwd 文件的内容出现在眼前。现在,解释 awk 做了些什么。调用 awk时,我们指定/etc/passwd 作为输入文件。执行 awk 时,它依次对/etc/passwd 中的每一行执行 print 命令。
所有输出都发送到 stdout,所得到的结果与执行 cat /etc/passwd 完全相同。
现在,解释{ print }代码块。在 awk 中,花括号用于将几块代码组合到一起,这一点类似于 C 语言。在代码块中只有一条 print 命令。在 awk 中,如果只出现 print 命令,那么将打印当前行的全部内容。
再次说明, awk 对输入文件中的每一行都执行这个脚本。
-F参数:指定分隔符,可指定一个或多个
print 后面做字符串的拼接
下面通过几实例来了解下awk的工作原理:
实例一:只查看test.txt文件(100行)内第20到第30行的内容(企业面试)
awk '{if(NR>=20 && NR<=30) print $1}' test.txt
实例二:已知test.txt文件内容为:
[root@Gin scripts]# cat test.txt
I am Poe,my qq is 33794712
请从该文件中过滤出’Poe’字符串与33794712,最后输出的结果为:Poe 33794712
[root@Gin scripts]# awk -F '[ ,]+' '{print $3" "$7}' test.txt
Poe 33794712
BEGIN 和 END 模块
通常,对于每个输入行, awk 都会执行每个脚本代码块一次。然而,在许多编程情况中,可能需要在 awk 开始处理输入文件中的文本之前执行初始化代码。对于这种情况, awk 允许您定义一个 BEGIN 块
。
因为 awk 在开始处理输入文件之前会执行 BEGIN 块,因此它是初始化 FS(字段分隔符)变量、打印页眉或初始化其它在程序中以后会引用的全局变量的极佳位置
。
awk 还提供了另一个特殊块,叫作 END 块。 awk 在处理了输入文件中的所有行之后执行这个块
。通常, END 块用于执行最终计算或打印应该出现在输出流结尾的摘要信息。
实例一:统计/etc/passwd的账户人数
awk 'BEGIN{count=0; print "start user count is ", count} {count=count+1; print $0}
wfq@ubuntu:~$ awk 'BEGIN{count=0; print "start user count is ", count} {count=count+1; print $0} END{print "end user count is ", count}' /etc/passwd
start user count is 0
root:x:0:0:root:/root:/bin/bash
daemon:x:1:1:daemon:/usr/sbin:/usr/sbin/nologin
bin:x:2:2:bin:/bin:/usr/sbin/nologin
sys:x:3:3:sys:/dev:/usr/sbin/nologin
sync:x:4:65534:sync:/bin:/bin/sync
games:x:5:60:games:/usr/games:/usr/sbin/nologin
man:x:6:12:man:/var/cache/man:/usr/sbin/nologin
lp:x:7:7:lp:/var/spool/lpd:/usr/sbin/nologin
mail:x:8:8:mail:/var/mail:/usr/sbin/nologin
news:x:9:9:news:/var/spool/news:/usr/sbin/nologin
uucp:x:10:10:uucp:/var/spool/uucp:/usr/sbin/nologin
proxy:x:13:13:proxy:/bin:/usr/sbin/nologin
www-data:x:33:33:www-data:/var/www:/usr/sbin/nologin
backup:x:34:34:backup:/var/backups:/usr/sbin/nologin
list:x:38:38:Mailing List Manager:/var/list:/usr/sbin/nologin
irc:x:39:39:ircd:/var/run/ircd:/usr/sbin/nologin
gnats:x:41:41:Gnats Bug-Reporting System (admin):/var/lib/gnats:/usr/sbin/nologin
nobody:x:65534:65534:nobody:/nonexistent:/usr/sbin/nologin
libuuid:x:100:101::/var/lib/libuuid:
syslog:x:101:104::/home/syslog:/bin/false
messagebus:x:102:106::/var/run/dbus:/bin/false
landscape:x:103:109::/var/lib/landscape:/bin/false
sshd:x:104:65534::/var/run/sshd:/usr/sbin/nologin
wfq:x:1000:1000:wfq,,,:/home/wfq:/bin/bash
end user count is 24
实例二:统计某个文件夹下的文件占用的字节数
ll | awk 'BEGIN{size=0;print "start size is", size} {size=size+$5} END{print "end size is ", size}'
wfq@ubuntu:~$ ll | awk 'BEGIN{size=0;print "start size is", size} {size=size+$5} END{print "end size is ", size}'
start size is 0
end size is 56126702
以M为单位显示
wfq@ubuntu:~$ ll | awk 'BEGIN{size=0;print "start size is", size} {size=size+$5} END{print "end size is ", size/1024/1024, "M"}'
start size is 0
end size is 53.5266 M
awk运算符
awk 赋值运算符:a+5;等价于: a=a+5;其他同类
wfq@ubuntu:~$ awk 'BEGIN{a=5;a+=5;print a}'
10
awk逻辑运算符
wfq@ubuntu:~$ awk 'BEGIN{a=2;b=1; print (a>2&&b>1,a=1||b>1)}'
0 1
判断表达式 a>2&&b>1为真还是为假,后面的表达式同理
awk正则运算符
wfq@ubuntu:~$ awk 'BEGIN{a="100testaa"; if(a~/100/) {print "ok"}}'
ok
wfq@ubuntu:~$ echo | awk 'BEGIN{a="100testaaa"}a~/test/{print "ok"}'
ok
关系运算符
如: > < 可以作为字符串比较,也可以用作数值比较,关键看操作数如果是字符串就会转换为字符串比较。两个都为数字 才转为数值比较。字符串比较:按照ascii码顺序比较。
wfq@ubuntu:~$ awk 'BEGIN{a="11";if(a>=9){print "ok"}}' # 无输出
wfq@ubuntu:~$ awk 'BEGIN{a=11; if(a>=9) {print "ok"}}'
ok
wfq@ubuntu:~$ awk 'BEGIN{a;if(a>=b){print "ok"}}'
ok
awk 算术运算符:
说明,所有用作算术运算符进行操作,操作数自动转为数值,所有非数值都变为0。
[root@Gin scripts]# awk 'BEGIN{a="b";print a++,++a}'
0 2
[root@Gin scripts]# awk 'BEGIN{a="20b4";print a++,++a}'
20 22
这里的a++ , ++a与javascript语言一样:a++是先赋值加++;++a是先++再赋值
三目运算符 ?:
[root@Gin scripts]# awk 'BEGIN{a="b";print a=="b"?"ok":"err"}'
ok
[root@Gin scripts]# awk 'BEGIN{a="b";print a=="c"?"ok":"err"}'
err
** 常用 awk 内置变量 **
注:内置变量很多,参阅相关资料
字段分隔符 FS
FS="\t" 一个或多个 Tab 分隔
[root@Gin scripts]# cat tab.txt
ww CC IDD
[root@Gin scripts]# awk 'BEGIN{FS="\t+"}{print $1,$2,$3}' tab.txt
ww CC IDD
FS="[[:space:]+]" 一个或多个空白空格,默认的
[root@Gin scripts]# cat space.txt
we are studing awk now!
[root@Gin scripts]# awk -F [[:space:]+] '{print $1,$2,$3,$4,$5}' space.txt
we are
[root@Gin scripts]# awk -F [[:space:]+] '{print $1,$2}' space.txt
we are
FS="[" “:]+” 以一个或多个空格或:分隔
[root@Gin scripts]# cat hello.txt
root:x:0:0:root:/root:/bin/bash
[root@Gin scripts]# awk -F [" ":]+ '{print $1,$2,$3}' hello.txt
root x 0
字段数量 NF
[root@Gin scripts]# cat hello.txt
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin:888
[root@Gin scripts]# awk -F ":" 'NF==8{print $0}' hello.txt
bin:x:1:1:bin:/bin:/sbin/nologin:888
记录数量 NR
[root@Gin scripts]# ifconfig eth0|awk -F [" ":]+ 'NR==2{print $4}' ## NR==2也就是取第2行
192.168.17.129
RS 记录分隔符变量
将 FS 设置成"\n"告诉 awk 每个字段都占据一行。通过将 RS 设置成"",还会告诉 awk每个地址记录都由空白行分隔。
[root@Gin scripts]# cat recode.txt
Jimmy the Weasel
100 Pleasant Drive
San Francisco,CA 123456
Big Tony
200 Incognito Ave.
Suburbia,WA 64890
[root@Gin scripts]# cat awk.txt
#!/bin/awk
BEGIN {
FS="\n"
RS=""
}
{
print $1","$2","$3
}
[root@Gin scripts]# awk -f awk.txt recode.txt
Jimmy the Weasel,100 Pleasant Drive,San Francisco,CA 123456
Big Tony,200 Incognito Ave.,Suburbia,WA 64890
OFS 输出字段分隔符
[root@Gin scripts]# cat hello.txt
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin:888
[root@Gin scripts]# awk 'BEGIN{FS=":"}{print $1","$2","$3}' hello.txt
root,x,0
bin,x,1
[root@Gin scripts]# awk 'BEGIN{FS=":";OFS="#"}{print $1,$2,$3}' hello.txt
root#x#0
bin#x#1
ORS 输出记录分隔符
[root@Gin scripts]# cat recode.txt
Jimmy the Weasel
100 Pleasant Drive
San Francisco,CA 123456
Big Tony
200 Incognito Ave.
Suburbia,WA 64890
[root@Gin scripts]# cat awk.txt
#!/bin/awk
BEGIN {
FS="\n"
RS=""
ORS="\n\n"
}
{
print $1","$2","$3
}
[root@Gin scripts]# awk -f awk.txt recode.txt
Jimmy the Weasel,100 Pleasant Drive,San Francisco,CA 123456
Big Tony,200 Incognito Ave.,Suburbia,WA 64890
** awk 正则 **
规则表达式
awk '/REG/{action} ’ file,/REG/为正则表达式,可以将$0 中,满足条件的记录送入到:action 进行处理
[root@Gin scripts]# awk '/root/{print $0}' passwd ##匹配所有包含root的行
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin
[root@Gin scripts]# awk -F: '$5~/root/{print $0}' passwd ## 以分号作为分隔符,匹配第5个字段是root的行
root:x:0:0:root:/root:/bin/bash
[root@Gin scripts]# ifconfig eth0|awk 'BEGIN{FS="[[:space:]:]+"} NR==2{print $4}'
192.168.17.129
布尔表达式
awk ‘布尔表达式{action}’ file 仅当对前面的布尔表达式求值为真时, awk 才执行代码块。
[root@Gin scripts]# awk -F: '$1=="root"{print $0}' passwd
root:x:0:0:root:/root:/bin/bash
[root@Gin scripts]# awk -F: '($1=="root")&&($5=="root") {print $0}' passwd
root:x:0:0:root:/root:/bin/bash
** awk 的 if、循环和数组 **
…待续…