awk是一个行编辑器,按行读出文件的内容,或者输入的内容;然后按给定的动作做相应处理,并输出结果,输出内容格式可定制。
awk的内建变量
$0 当前记录(存放当前整行的内容)
$1-$n 当前记录的第n个字段,分隔符由FS指定
FS (field spilt)分隔符,可动态指定,默认为空格
NF (number of fields)当前行的字段数
NR (number of read)已经读出的行数(行号)
FNR 多个文件时:当前记录数=当前文件已读记录数(行号)
RS (record spilt)记录分隔符,默认为换行符
FILENAME 当前文件名
变量使用例子:(文件为nginx的日志文件)
1.打印行号,以及每行的字段数
awk '{print NR,NF}' test.txt
2.打印第8列内容,并统计各出现过多少次
awk '{ sum[$8]+=1 } END { for (s in sum) print s,"-->"sum[s]}' test.txt
3.统计IP出现的次数
awk '{ sum[$1]+=1 } END { for (s in sum) print s,"-->"sum[s]}' test.txt
4.根据IP统计传输内容的大小
awk '{ sum[$1]+=$9 } END { for (s in sum) print s,"-->"sum[s]}' test.txt
列出大小排名前100的IP
awk '{ sum[$1]+=$9 } END { for (s in sum) print s,sum[s]}' test.txt | sort -r -n -k2 | head -n 100
5.awk实现grep功能,列出http状态码为200的行
awk '/ 200 /' test.txt
awk '/ 200 / {print NR}' test.txt (grep -c 200)
6.awk截取某个字段
awk '{print $n}' test.txt
awk '{print $NF}' test.txt
awk '{print $(NF-1)}' test.txt
7.统计当前tcp连接状态
netstat -an | awk '/^tcp/ {++S[$NF]} END {for (a in S) print a,S[a]}' 当前链接状态统计