linux文本处理工具之awk

最新推荐文章于 2024-08-05 22:01:46 发布

sunxing007

最新推荐文章于 2024-08-05 22:01:46 发布

阅读量1.2k

点赞数

分类专栏： linux基础和shell 文章标签： linux 工具 command 正则表达式 math 数据库

本文链接：https://blog.csdn.net/sunxing007/article/details/7306479

版权

linux基础和shell 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

基础概念

Awk把文件(或其他方式的输入流, 如重定向输入)看作一个记录集, 把每一行看作一条记录, 把每一行中以空格(或\t,或用户自己指定的分隔符)分割的字符串看作一个字段. 这似乎把文件记录看成数据库. 但是, awk仍然以行为单位逐行处理. 本例子以下面的文件(命名为s.txt)内容做演示:
zhangsan 1977 male computer 83
lisi 1989 male math 99
wanglijiang 1990 female chinese 78
xuliang 1977 male economic 89
xuxin 1986 female english 99
wangxuebing 1978 male math 89
lichang 1989 male math 99
wanglijiang 1990 female chinese 78
zhangsansan 1977 male computer 83
langxuebing 1978 male math 89
lisibao 1989 male math 99
xiaobao 1990 female chinese 78

一行中的5个字段分辨表示姓名, 出生年, 性别,科目,分数, 是一个很传统很典型的报表文件.

Awk基本语法:　awk ‘pattern1 {command1;command 2…; command 3}pattern2 { command …}’
pattern表示用来过滤记录的模式,　可是是正则表达式,　关系运算表达式,　也可以什么也没有(表示选中所有记录);
每个pattern选中的行记录会被花括号括起来的命令command操作一遍, command之间用;分割. 花括号里面可以什么也没有, 则默认为print输出整行记录. Comamnd可以是输出, 可以是算术运算, 逻辑运算, 循环控制等等.

先看几个例子, 以建立对awk的命令直观的了解.
awk ‘/1990/’ s.txt                                                                            #//直接输出1990年出生的同学;
awk ‘/chinese/{print “语文”; print “语文”}’s.txt                               #// 对chinese的课程的行输出两行”语文 +”;
awk ‘20>1{print “Yes”}’ s.txt                                                       #//因为20>0,所以每行输出Yes;
awk 'BEGIN{print "Result of the quiz:\n"}{print}END{print"---------------------------"}' s.txt
结果:

本例有３个花括号,分别对应3个模式, BEGIN和END是特殊模式,分别作用在记录开始前和记录结束后.

变量: 上面说到command可以是算术运算, 所及运算等, 则既然有运算, 就有常量变量, awk可以自定义变量(不需要提前声明, 但最好在BEGIN里面给它初始化). Awk也维护了一组程序变量:

变量	说明
$0	当前记录;
$1, $2, … $n	当前记录的字段
FILENAME	当前的文件名
FS	输入字段的分隔符, 可通过-F修改. 如: 先通过sed把空格替换为\|,然后管道输送给awk: sed 's/ /\|/g' s.txt \| awk -F '\|' '/chinese/{print FILENAME, $1, $5}'
NF	当前记录的字段数
NR	当前记录编号
OFS	输出字段分隔符
ORS	输出记录分隔符
RS	记录分隔符, 默认为换行符

给一些例子来说明这些变量的用法:
awk ‘$4==”chinese”{print NR, $1, $4, $5}’ s.txt #//第四个字段科目为chinese的记录编号, 学生姓名, 科目和成绩.
awk ‘$2~/1990/{print $1}’ s.txt   #//找出1990年出生的学生姓名, ~表示匹配正则表达式
awk ‘$2!~/1990/{print $1}’ s.txt    #//找出不是1990年出生的学生姓名, !~表示不匹配正则表达式
awk ‘$2>”1985”{print $1, $2}’ s.txt   #//找出大于1985年出生的学生姓名,年龄
awk ‘END{print “total: ” NR ”\n----------------” }’ s.txt
awk ‘BEGIN{goodChinese=0; goodMath=0}($4==”chinese”||$5>90){goodChinese++}END{print“”}