在linux中有文本三剑客:grep、sed、awk,grep和sed之前已经给大家介绍过了,接下来给大家介绍awk这个强大工具的使用。
一、awk简介
awk:Aho, Weinberger, Kernighan报表生成器或报告生成器,格式化文本输出。awk经过改进生成的新的版本nawk,gawk,现在默认linux系统下日常使用的是gawk,用命令可以查看正在应用的awk的来源(ls -l /bin/awk )。
二、使用方法
基本用法:
awk [options] ‘program’ var=value file…
awk [options] -f programfile var=value file…
awk [options] 'BEGIN{ action;… } pattern{ action;… } END{ action;… }' file ...
program:PATTERN{action statements}
注意:语句之间用分号分隔。
分隔符、域和记录:
由分隔符分隔的字段标记$1,$2...$n称为域表示。$0表示所有域。
文件的每一行称为记录。
选项:
-F 指明输入时用到的字段分隔符
-v var=value:自定义变量
gawk工作原理:
第一步:执行BEGIN{action;… }语句块中的语句。BEGIN语句块在awk开始从输入流中读取行之前被执行,这是一个可选的语句块,比如变量初始化、打印输出表格的表头等语句通常可以写在BEGIN语句块中。
第二步:从文件或标准输入(stdin)读取一行,然后执行pattern{ action;… }语句块,它逐行扫描文件,从第一行到最后一行重复这个过程,直到文件全部被读取完毕。如果没有提供pattern语句块,则默认执行{ print },即打印每一个读取到的行,awk读取的每一行都会执行该语句块。
第三步:当读至输入流末尾时,执行END{action;…}语句块。END语句块在awk从输入流中读取完所有的行之后即被执行,比如打印所有行的分析结果这类信息汇总都是在END语句块中完成,它也是一个可选语句块。
1、print
print item1,item2
注意事项:
(1)逗号分隔符;
(2)输出的各item可以字符串,可以是数值;当前记录的字段(域)、变量或awk的表达式;
(3)变量替换不能用引号引起来;
(4)如果省略item,相当于print $0,$0为所有域。
注意:此处的$符含义与shell中变量不同。
2、变量
自定义变量
-v var=value
内建变量
FS :input field seperator,默认为空白字符;
示例:
[root@localhost~]#awk -v FS=':' '{print $1,$3}' /etc/passwd
[root@localhost~]#awk -v FS=':' '{print $1FS$3}' /etc/passwd
[root@localhost~]#seg=":";awk -v FS=$seg '{print $1FS$3}' /etc/passwd
OFS:output field seperator,默认为空白字符
[root@localhost~]#awk -v FS=":" -v OFS="#####" '{print $1,$3}' /etc/passwd
RS:指明输入的换行分隔符
[root@localhost~]#awk -v RS=" " '{print}' /etc/passwd
ORS:输出时的换行符
[root@localhost~]#awk -v RS=' ' -v ORS="####" '{print}' /etc/passwd
NF:number of field ,字段的数量
[root@localhost~]#awk -F: '{print $(NF-2)}' /etc/passwd
NR:number of record,行数;
[root@localhost~]#awk '{print NR}' /etc/passwd
FNR:单多个文件单独计数。
[root@localhost~]#awk '{print FNR}' /etc/passwd /etc/shadow
FILENAME:文件名
[root@localhost~]#awk '{print FILENAME,$1,$3}' /etc/passwd
ARGC:命令行参数的个数
[root@localhost~]#awk '{print ARGC}' /etc/passwd /etc/inittab
注意:命令行参数个数,除action其余都算参数。
ARGV:数组,保存的是命令行所给定的参数的名称
可以把program写入一个文件中调用
[root@localhost~]#cat awkscript
{print script,$1,$2}
[root@localhost~]#awk -F: -f awkscript script=“awk” /etc/passwd
数字和变量,不需要加引号,字符串需要引号
注意,显示内部变量不需要加“$”。变量名区分字符的大小写。
3、printf命令
格式化输出:printf FROMAT,item1,item2...
注意事项:
(1)FORMAT必须要给出;
(2)不会自动换行,需要显示给出换行控制符,\n;
(3)FORMAT中需要分别为后面的每个item指定一个格式化符号;
格式符:
%c:显示字符的ASCLL码
%d,%i:显示十进制整数
%e,%E:科学计数法显示;
%f:显示为浮点数
%g,%G:以科学计数法或浮点形式显示数值;
%s:显示字符串
%u:无符号整数
%%:显示%自身
[root@localhost~]#awk -F : '{printf "%s\n" $1}' /etc/fstab
修饰符:
#[.#]:第一个数字控制显示的宽度;第二个#表示小数点后的精度;
%3.1f
-:左对齐,默认右对齐
[root@localhost~]#awk -F: '{printf "usrname:%-15s uid:%-20d\n",$1,$3}' /etc/passwd
+:显示数值的符号
操作符:
算数操作符:+ - * / ^ %
字符串操作符:没有符号的操作符,字符串链接
赋值操作符:
= += -= *=
比较操作符:
> >= < <= != ==
模式匹配符:
~
!~:是否不匹配
逻辑操作符:
&& || !
函数调用:
[root@localhost~]#awk -F: '$0~/root/{print $0}' /etc/passwd
[root@localhost~]#awk -F: '$0 !~ /root/{print $0}' /etc/passwd
[root@localhost~]#awk -F: '$3>50 && $3<500{print $1,$3}' /etc/passwd
[root@localhost~]#awk -F: '!($3==0){print $1,$3}' /etc/passwd
或
[root@localhost~]#awk -F: '$3 != 0{print $1,$3}' /etc/passwd
function_name(argu1,argu2,…)
条件表达式(三目表达式):
selector?if-true-expression:if-false-expression
[root@localhost~]#awk -F: '{$3>=500?type="com":type="system";printf "%-15s %20s\n",$1,type}' /etc/passwd
PATTERN
(1)如果为指定:空模式,匹配每一行;
(2)/regular expression/:仅处理能够匹配到的行;
(3)relational expression:关系表达式,结果为真才能被处理。
注意:不支持直接给出数字的格式:
[root@localhost~]#awk -F: '/^root/{print $0}' /etc/passwd
区分:
[root@localhost~]#awk -F: 'i=1{print i,$0}' test
[root@localhost~]#awk -F: 'i=0{print i,$0}' test
上述情况中i在前面起到一个判断作用,如果i=0为假不执行后面语句,如果i=1或任何其他数都执行后面语句。
真:结果为非0值,非空字符串
假:结果为空字符串或0值
取奇数和偶数
BEGIN/END模式
BEGIN{}:仅在开始处理文件中的文本之前执行一次;
END{}:仅在文本处理完成之后执行一次;
[root@localhost~]#awk -F: 'BEGIN{print "name uid\n------------------------"}{printf "%-15s %20\n",$1,$3}END{print "===============================\n"}' /etc/passwd
常用的action
expression:算数,比较表达式等
control statements:if,while等;
compound statement:组合语句;
input statements
output statements
控制语句
if(condition){statements}
if (condition) {statements} else {statements}
while (condition){statements}
do {statements} while(condition)
for (expr1;expr2;expr3){statements}
break
continue
delete array[index]
delete array
exit
{ statements }
if-else
语法:if(condition) statement[else statement]
[root@localhost~]#awk -F: '{if($3>=1000) print $1,$3}' /etc/passwd
[root@localhost~]#awk -F: '{if($3>=1000) {printf "common user:%s\n",$1} else{ print"root or sysuser:%s\n",$1}}' /etc/passwd
使用场景:对awk取得的整行或某个字段做条件判断;
[root@localhost~]#awk -F: '{if($NF==/bin/bash) print $1}' /etc/passwd
[root@localhost~]#awk '{if(NF>5) print $0}' /etc/passwd
[root@localhost~]#df -h |awk -F[%] '/^\dev/{print $1}' |awk '{if($NF>=20) print $1}'
while循环
语法:while(condition)statement
条件真,进入循环;条件假,退出循环
使用场景:对一行内的多个字段逐一类似处理时使用;对数组中的各元素逐一处理时使用;
length()
[root@localhost~]#awk '/^[[:space:]]*linux16/{i=1;while(i<=NF){print $i,length($i);i++}}' /etc/grub2.cfg
[root@localhost~]#awk '/^[[:space:]]*linux16/{i=1;while(i<=NF){if length($i>=7){print $i,length($i)} ;i++}}' /etc/grub2.cfg
do-while循环
语法:do statement while(condition)
意义:至少执行一次循环体
for循环
语法:for(expr1;expr2;expr3) statement
for(variable assignment;condition;iteration process){for-body}
[root@localhost~]#awk '/^[[:space:]]*linux16/{for(i=1;i<=NF;i++) {print $i,length($i)}}' /etc/grub2.cfg
特殊用法:能够遍历数组中的每一个元素
语法:for (var in array){for-body}
switch语句
语法:switch(expression){case CALUE1 or /regexp/:statement;case or /regexp2/:statement;...;default:statement}
break和continue
break [n]
next
提前结束对本行的处理而直接进入下一行
[root@localhost~]#awk -F: '{if($3%2!=0) next;print $1,$3 }' /etc/passwd
array数组
关联数组:array[index-expression]
index-expression
可使用任意字符串,字符串要使用双引号
如果某数组元素事先不存在,在引用时,awk会自动创建此元素,并将其值初始化为“空串”
若要判断数组中是否存在某元素,要使用“index in array”格式进行
[root@localhost~]#awk'BEGIN{weekdays["mon"]="monday";weekdays["tue"]="tuesday";print weekdays["tue"]}'
若要遍历数组中的每个元素,要使用for循环
for(variable in array)
注意:var会遍历array的每个索引;
[root@localhost~]#nestat -tan |awk '/^tcp\>/{state [$NF]++}END{for(in state){print i,state(i)}}}'
[root@localhost~]#awk '{ip[$1]++}END{for(i in ip) {print i,ip[i]}}}' /var/log/httpd/access_log
练习:1统计/etc/fstab文件中每个文件系统出现的次数
[root@localhost~]#awk '{filetype[$3]++}END{for (i in filetype) {print i,filetype[i]}}' /etc/fstab
2统计每个单词
[root@localhost~]#awk '{for(i;i<=NF;i++){count[$i]++}}END{for(i in count){print i,count[i]}}' /etc/fstab
3取ip地址
[root@localhost~]#ifconfig eth0 |awk -F"[ :]+" '(NR==2) {print $4}'
函数
数值处理:rand():返回0和1之间一个随机数
[root@localhost~]#awk 'BEGIN{srand(); for (i=1;i<=10;i++)print int(rand()*100) }'
字符串处理:
length([s]):返回指定字符串的长度
sub(r,s,[t]):对t字符串进行搜索r表示的模式匹配的内容,并将第一个匹配的内容替换为s
[root@localhost~]#echo "2008:08:08 08:08:08" | awk 'sub(/:/,“-",$1)'
gsub(r,s,[t]):对t字符串进行搜索r表示的模式匹配的内容,并全部替换为s所表示的内容
[root@localhost~]#echo "2008:08:08 08:08:08" | awk ‘gsub(/:/,“-",$0)'
split(s,array,[r]):以r为分隔符,切割字符串s,并将切割后的结果保存至array所表示的数组中,第一个索引值为1,第二个索引值为2,…
[root@localhost~]#netstat -tan | awk '/^tcp\>/{split($5,ip,":");count[ip[1]]++} END{for (i in count) {print i,count[i]}}'
system命令
空格是awk中的字符串连接符,如果system中需要使用awk中的变量可以使用空格分隔,或者说除了awk的变量外其他一律用""引用起来。
[root@localhost~]#awk BEGIN'{system("hostname") }'
[root@localhost~]#awk 'BEGIN{score=100; system("echo your score is " score) }'
注意有空格
[root@localhost~]#str=hello,awk;awk -v hi=$str 'BEGIN{system("echo" hi)}'
awk脚本
将awk程序写成脚本,直接调用或执行
示例:
[root@localhost~]#vim f2.awk
#!/bin/awk –f
#this is a awk script {if($3>=1000)print $1,$3}
[root@localhost~]#chmod +x f2.awk
[root@localhost~]#f2.awk –F: /etc/passwd
向awk脚本传递参数
格式:
awkfile var=value var2=value2... Inputfile
注意:在BEGIN过程中不可用。直到首行输入完成以后,变量才可用。可以通过-v 参数,让awk在执行BEGIN之前得到变量的值。命令行中每一个指定的变量都需要一个-v参数。
示例:
[root@localhost~]#cat test.awk
#!/bin/awk –f
{if($3 >=min && $3<=max)print $1,$3}
[root@localhost~]#chmod +x test.awk
[root@localhost~]#test.awk -F: min=100 max=200 /etc/passwd