温馨提示,本文适合有一定编程基础的人阅读。
使用awk进行计算
一个动作就是一个语句序列, 语句之间用分号或换行符分开。 前面已经见过只有一条单独的 print 语句的动作。 接下来的例子所包含的语句可以用来进行简单的数学或字符串计算。 在这些语句里, 不仅可以使用内建变量, 比如 NF, 还可以自己定义变量, 这些变量可以用来计算, 存储数据等。在 awk 中, 用户创建的变量不需要事先声明就可以使用。
计数
计算工作时长超过 15 个小时的员工人数
awk '$3 > 15 { emp = emp + 1 } END { print emp, "个员工工作时长超过15小时。" }' employ.dat
3 个员工工作时长超过15小时。
当 awk 的变量作为数值使用时, 默认初始值为 0, 所以我们没必要初始化 emp。
计算总和与平均数
为了计算员工的人数, 我们可以使用内建变量 NR, 它的值是到目前为止读取到的行数; 当所有输入都处理完毕时, 它的值就是读取到的行数
awk 'END {print "一共",NR, "个员工" }' employ.dat
一共 6 个员工
接下来我们看看怎么计算员工的平均薪资:
awk '{totalPay = totalPay + $2 * $3} END {print "一共", NR, "个员工"
print "总的工资是", totalPay
print "平均工资是", totalPay / NR}' employ.dat
一共 6 个员工
总的工资是 3165
平均工资是 527.5
操作文本
变量的存储
Awk 可以非常方便地对字符串进行操作,Awk的变量除了可以存储数值, 还可以存储字符串。下面程序查询每小时工资最高的员工:
awk '$2 > maxSalary { maxSalary = $2; name = $1}
END {print "最高时薪是",name,"时薪为",maxSalary}' employ.dat
最高时薪是 王八 时薪为 80.00
字符串拼接
通过旧字符串的组合来生成一个新字符串; 这个操作叫作拼接 (concatenation)。
awk '{names = names $1 " "} END {print names}' employ.dat
张三 李四 王五 赵六 钱七 王八
打印最后一行
END 动作里, NR 的值被保留了下来, 但是 $0
却不会. 程序
awk '{last = $0} END {print last}' employ.dat
可以用来打印文件的最后一行:
王八 80.00 18
内建函数
awk 提供有内建变量, 这些变量可以用来维护经常需要用到的量, 比如字段的个数, 以及当前输入行的行号. 同样, awk 也提供用来计算其他值的内建函数. 求平方根, 取对数, 随机数, 除了这些数学函数, 还有其他用来操作文本的函数. 其中之一是 length, 它用来计算字符串中字符的个数. 例如
awk '{ print $1, length($1)}' employ.dat
张三 2
李四 2
王五 2
赵六 2
钱七 2
王八 2
流程控制语句
Awk 提供了用于决策的 if-else 语句, 以及循环语句, 所有的这些都来源于 C 语言. 它们只能用在动作(Action) 里。
If-else 语句
计算时薪大于30的员工总工资以及平均工资
awk '$2 > 30 {count = count + 1;pay = pay + $2 * $3}
END {if (count > 0) print count,"个员时薪大于30,工总工资是",pay,"平均工资是",pay / count
else print "没有员工时薪大于30元"} ' employ.dat
2 个员时薪大于30,工总工资是 2375 平均工资是 1187.5
While 语句
一个 while 含有一个条件判断与一个循环体。当条件为真时, 循环体执行。
把每行记录打印3遍
awk '
{ i = 1
while (i <= 3) {
print
i = i + 1
}
}
' employ.dat
For 语句
大多数循环都包括初始化, 测试, 增值, 而 for 语句将这三者压缩成一行,上面的例子用下for循环实现:
awk '{ for (i = 1; i <= 3; i = i + 1) {
print
}
}' employ.dat
今天的内容就到这里了,我们下节见。