一、零
awk,经常用于格式化输出,也就是将数据按照我们想要的方式来显示,并且可以做一些基本的统计工作。
1. 它的运作模式是“预处理 + 逐行处理 + 最终处理”。一般我们只用“逐行处理”比如对于满足条件的某些行,我们打印某某列。通过指定分隔符,我们很容易的对列进行操作。
2. 预处理来定义变量,逐行处理来修改变量,最终处理来打印变量。
二、awk 使用
awk 'BEGIN{ commands } /pattern/ {commands} END{ commands }'
1、BEGIN{ commands }
开始块就是在程序启动的时候执行的代码部分,并且它在整个过程中只执行一次。一般情况下,我们可以在开始块中初始化一些变量。
注意:开始块部分是可选的,你的程序可以没有开始块部分。
2、/pattern/ {commands}
pattern 部分匹配该行内容成功后,才会执行 commands 的内容。
3、END{ commands }
结束块是在程序结束时执行的代码。
注意:结束块部分也是可选的
三、awk 基本用法
选项 | 含义 |
-F | -F ',' 或者 -F '正则表达式' -F 选项来改变字段分隔符 |
-v | -va=1 赋值一个用户定义变量 a 的值为 1 |
-f | -f scripfile ,从脚本文件中读取 awk 命令 |
$ cat 1.txt
2 this is a test1
3 Are you like awk1
This's a test1
10 There are orange,apple,mongo
------------------------------------------------------------------------------------------------------------
$ awk '{print $1,$4}' 1.txt # 每行按空格或TAB分割,输出文本中的1、4项
2 a
3 like
This's
10 orange,apple,mongo
------------------------------------------------------------------------------------------------------------
$ awk '{printf "%-8s %-10s\n",$1,$4}' 1.txt # 格式化输出
2 a
3 like
This's
10 orange,apple,mongo
--------------------------------------------------------------------------------------------
$ awk -F, '{print $1,$2}' 1.txt # 使用","分割。-F相当于内置变量FS, 指定分割字符
2 this is a test
3 Are you like awk
This's a test
10 There are orange apple
---------------------------------------------------------------------------------------------
$ awk 'BEGIN{FS=","} {print $1,$2}' 1.txt # 或者使用内建变量
2 this is a test
3 Are you like awk
This's a test
10 There are orange apple
-----------------------------------------------------------------------------------------------------
$ awk -F '[ ,]' '{print $1,$2,$5}' 1.txt # 使用多个分隔符.先使用空格分割,然后对分割结果再使用","分割
2 this test
3 Are awk
This's a
10 There apple
-----------------------------------------------------------------------------------------------------
$ awk -va=1 '{print $1,$1+a}' 1.txt # -v 设置变量
2 3
3 4
This's 1
10 11
$ awk -va=1 -vb=s '{print $1,$1+a,$1b}' 1.txt
2 3 2s
3 4 3s
This's 1 This'ss
10 11 10s
-----------------------------------------------------------------------------------------------------
$ awk -f cal.awk log.txt # awk -f {awk脚本} {文件名}
四、awk 常用系统变量
变量 | 描述(列举常用的,还有很多其他的没怎么常用) |
---|---|
$n | $1当前记录的第1个字段的内容。和sed中的$1不同,sed表示第一个参数 |
$0 | 整行数据的内容 |
FS | 字段分隔符 (默认是空格) |
OFS | 输出字段的分隔符(默认是空格) |
RS | 行分隔符(默认以\n作为一行的结尾),单行分割成多行用到 |
NR | 行号,从1开始,多文件时候也是连续接着计数 |
FNR | 各文件分别计数的行号,多文件的时候会和NR不同,它会重新计数 |
NF | 一行中字段数量,最后一个字段内容可以用$NF 取出 |
ARGC | 命令行参数的数目 |
ARGV | 包含命令行参数的数组,第一个参数是命令 awk |
$ cat log.txt
2 this is a test1
3 Are you like awk1
This's a test1
10 There are orange,apple,mongo
$ awk '/re/ ' log.txt # 输出包含 "re" 的行
---------------------------------- -----------
3 Are you like awk
10 There are orange,apple,mongo
$ awk 'BEGIN{IGNORECASE=1} /this/' log.txt #忽略大小写
---------------------------------------------
2 this is a test
This's a test
$ awk '$2 ~ /th/ {print $2,$4}' log.txt # 输出第二列包含 "th",并打印第二列与第四列 ~代表模式
---------------------------------------------
this a
$ awk '$2 !~ /th/ {print $2,$4}' log.txt #模式取反
---------------------------------------------
Are like
a
There orange,apple,mongo
$ awk '!/th/ {print $2,$4}' log.txt #模式取反(和上面一个是一样的效果)
---------------------------------------------
Are like
a
There orange,apple,mongo
$ ls -l *.txt | awk '{sum+=$5} END {print sum}' #计算文件大小
--------------------------------------------------
666581
$ awk 'length>80' log.txt #从文件中找出长度大于 80 的行
$ seq 9 | sed 'H;g' | awk -v RS='' '{for(i=1;i<=NF;i++)printf("%dx%d=%d%s", i, NR, i*NR, i==NR?"\n":"\t")}' #打印九九乘法表
五、 awk 循环和数组
awk '{for(c=2;c<=NF;c++) print $c}' 1.txt
awk '{sum=0;for(c=2;c<NF;c++) sum+=$c; print sum/(NF-1)}' 1.txt #求每行的平均值
awk '{sum=0;for(c=2;c<NF;c++) sum+=$c;average[$1]=sum/(NF-1)} END{for(user in average) print user,average[user]}' 1.txt #用数组的方式求每行的平均数
awk '{sum=0;for(c=2;c<NF;c++) sum+=$c;average[$1]=sum/(NF-1)} END{for(user in average) sum2+=average[user];print sum2/NR}' 1.txt #求总数的平均值
命令行参数数组
ARGC 命令行参数的数目
ARGV 包含命令行参数的数组
(SAW:Game Over!)