基础概念
Awk把文件(或其他方式的输入流, 如重定向输入)看作一个记录集, 把每一行看作一条记录, 把每一行中以空格(或\t,或用户自己指定的分隔符)分割的字符串看作一个字段. 这似乎把文件记录看成数据库. 但是, awk仍然以行为单位逐行处理. 本例子以下面的文件(命名为s.txt)内容做演示:
zhangsan 1977 male computer 83
lisi 1989 male math 99
wanglijiang 1990 female chinese 78
xuliang 1977 male economic 89
xuxin 1986 female english 99
wangxuebing 1978 male math 89
lichang 1989 male math 99
wanglijiang 1990 female chinese 78
zhangsansan 1977 male computer 83
langxuebing 1978 male math 89
lisibao 1989 male math 99
xiaobao 1990 female chinese 78
一行中的5个字段分辨表示姓名, 出生年, 性别,科目,分数, 是一个很传统很典型的报表文件.
Awk基本语法: awk ‘pattern1 {command1;command 2…; command 3}pattern2 { command …}’
pattern表示用来过滤记录的模式, 可是是正则表达式, 关系运算表达式, 也可以什么也没有(表示选中所有记录);
每个pattern选中的行记录会被花括号括起来的命令command操作一遍, command之间用;分割. 花括号里面可以什么也没有, 则默认为print输出整行记录. Comamnd可以是输出, 可以是算术运算, 逻辑运算, 循环控制等等.
先看几个例子, 以建立对awk的命令直观的了解.
awk ‘/1990/’ s.txt #//直接输出1990年出生的同学;
awk ‘/chinese/{print “语文”; print “语文”}’s.txt #// 对chinese的课程的行输出两行”语文 +”;
awk ‘20>1{print “Yes”}’ s.txt #//因为20>0,所以每行输出Yes;
awk 'BEGIN{print "Result of the quiz:\n"}{print}END{print"---------------------------"}' s.txt
结果:
本例有3个花括号,分别对应3个模式, BEGIN和END是特殊模式,分别作用在记录开始前和记录结束后.
变量: 上面说到command可以是算术运算, 所及运算等, 则既然有运算, 就有常量变量, awk可以自定义变量(不需要提前声明, 但最好在BEGIN里面给它初始化). Awk也维护了一组程序变量:
变量 | 说明 |
$0 | 当前记录; |
$1, $2, … $n | 当前记录的字段 |
FILENAME | 当前的文件名 |
FS | 输入字段的分隔符, 可通过-F修改. 如: 先通过sed把空格替换为|,然后管道输送给awk: |
NF | 当前记录的字段数 |
NR | 当前记录编号 |
OFS | 输出字段分隔符
|
ORS | 输出记录分隔符 |
RS | 记录分隔符, 默认为换行符 |
awk ‘$4==”chinese”{print NR, $1, $4, $5}’ s.txt #//第四个字段科目为chinese的记录编号, 学生姓名, 科目和成绩.
awk ‘$2~/1990/{print $1}’ s.txt #//找出1990年出生的学生姓名, ~表示匹配正则表达式
awk ‘$2!~/1990/{print $1}’ s.txt #//找出不是1990年出生的学生姓名, !~表示不匹配正则表达式
awk ‘$2>”1985”{print $1, $2}’ s.txt #//找出大于1985年出生的学生姓名,年龄
awk ‘END{print “total: ” NR ”\n----------------” }’ s.txt
awk ‘BEGIN{goodChinese=0; goodMath=0}($4==”chinese”||$5>90){goodChinese++}END{print“”}