(1) awk视文本文件为文本数据库
awk将文本文件的每一行看作为一个记录,将每一行中每一个被空白符分割开的部分看作一个字段
(2) awk语法结构分析
awk [-F ERE] [-vassignment] ...program[argument ...]
awk [-F ERE] –f progfile ... [-v assignment]...[argument ...]
标准的awk命令行参数如下:
● -F ERE:定义字段分隔符,该选项的值可以是扩展的正则表达式(ERE);
通过-F参数设置冒号:为分隔符,并打印各个字段:
[kodango@devops ~]$ echo "1:2:3" | awk -F: '{print $1 " and " $2 " and " $3}'
1 and 2 and 3
分隔符为正则表达式的情况,通过使用正则表达式将分隔符设置为 Ab 和Cb:
[root@zsyw02 test]# cat123.txt
ksjdfkdsAbsdfsdfCbksjdkfjsd
[root@zsyw02 test]# cat123.txt | awk -F[AC]b '{print $1 ,$2, $3}'
ksjdfkds sdfsdf ksjdkfjsd
● -f progfile:指定awk脚本,可以同时指定多个脚本,它们会按照在命令行中出现的顺序连接在一起;
● -v assignment:定义awk变量,形式同awk中的变量赋值,即name=value,赋值发生在awk处理文本之前;
在awk的脚本中访问通过-v选项设置的变量:
kodango@devops ~]$ echo | awk -v a=1 'BEGIN {print a}'
● program 称为awk代码,也可以称为awk脚本。一段awk脚本是由多个’pattern { action }‘序列组成的。action是一个或者多个语句,它在输入行匹配pattern的时候被执行。如果pattern为空,表明这个action会在每一行处理时都会被执行 。
模式(Pattern)有以下几种情况:
1>/regular expression/: 扩展的正则表达式(ExtendedRegular Expression)。
查找匹配数字3的行:
[kodango@devopsawk_temp]$ seq 1 20 | awk '/3/ {print}'
3
13
2> relationalexpression: 关系表达式,例如大于、小于、等于,关系表达式结果为true表示匹配;
CodingAnts@ubuntu:~/awk$ catv14
guangdong 113.65.141.* 14:35:27 www.baidu.com
shanghai 123.126.50.* 14:18:23 www.google.com.hk
shanghai 117.136.0.* 14:17:23 www.google.com
CodingAnts@ubuntu:~/awk$ awk-F : '$2>30 {print $0}' v14
guangdong 113.65.141.* 14:35:27 www.baidu.com
3> BEGIN: 特殊的模式,在第一个记录处理之前被执行,常用于初始化语句的执行;
[kodango@devops~]$ echo | awk -v a=1 'BEGIN {print a}'
1
4> END: 特殊的模式,在最后一个记录处理之前被执行,常用于输出汇总信息;
jimmy@ubuntu:~/shell_pro$ cattom.txt
tommy
tom
admin
jimmy
mary
character
tomsun
jimmy@ubuntu:~/shell_pro$ awk'/tom/{count++} END{print "tom found",count,"times"}'tom.txt
tom found 3 times
5> pattern, pattern:模式对,匹配两者之间的所有记录,类似sed的地址对;