awk文本处理
概述
awk [ɔ:k] 其名称得自于它的创始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首个字母。实际上 AWK 的确拥有自己的语言,三位创建者已将它正式定义为“样式扫描和处理语言”。
awk也是一个数据处理工具,sed其实是以行为单位的文本处理工具,而awk则是基于列的文本处理工具。
它的工作方式是按行读取文本并视为一条记录,每条记录以分割符分隔成若干字段,然后输出各字段的值。
awk语言的最基本功能是在文件或字符串中基于指定规则来分解抽取信息,也可以基于指定的规则来输出数据。
其实他更像一门编程语言,他可以自定义变量,有条件语句,有循环,有数组,有正则,有函数等。
域
awk 认为文件都是结构化的,也就是说都是由单词和各种空白字符组成的,这里的“空白字符”包括空格、Tab,以及连续的空格和Tab等。每个非空白的部分叫做“域”,从左到右依次是第一个域、第二个域,等等。$1、$2分别用于表示域,$0则表示全部域。
awk 调用方式
-
命令行方式
awk [-F field-separator] ‘commands’ input-files
- [-F域分隔符] (separator [ˈsepəreɪtər] 分离器) 是可选的,因为awk使用空格或tab键作为缺省的域分隔符,因此如果要浏览域间有空格的文本,不必指定这个选项,如果要浏览诸如passwd文件,此文件各域以冒号作为分隔符,则必须指明-F选项。
如:awk -F: ‘commands’ input-file
在linux系统中用环境变量IFS存储分隔符,但根据实际应用也可以改变IFS的值 - commands 是真正awk命令
- input-files 是待处理的文件
iput_files可以是多于一个文件的文件列表,awk将按顺序处理列表中的每个文件。
- [-F域分隔符] (separator [ˈsepəreɪtər] 分离器) 是可选的,因为awk使用空格或tab键作为缺省的域分隔符,因此如果要浏览域间有空格的文本,不必指定这个选项,如果要浏览诸如passwd文件,此文件各域以冒号作为分隔符,则必须指明-F选项。
-
shell 脚本方式
将所有的awk命令插入一个文件,并使awk程序可执行,然后awk命令解释器作为脚本的首行,以便通过键入脚本名称来调用。相当于shell脚本首行的:#!/bin/sh可以换成:#!/bin/awk
# 创建文件 vim awk01.sh # 编写脚本文件 # 写入以下内容 #!/bin/awk -f {FS=":"} { if($3>500) { print $1,$7 } } # 脚本文件增加执行权限 chmod +x awk01.sh # 执行脚本 ./awk01.sh /etc/passwd
-
awk脚本文件
将所有的 awk 命令插入一个单独文件,然后调用。
awk -f awk-script-file input-files
其中,-f选项加载awk-script-file中的awk脚本,input-files跟上面的是一样的。
# 创建文件 vim awk02.sh # 编写脚本文件 {FS=":"} $3>500 {print $1,$7} # 执行awk脚本 # 调用awk命令并使用-f参数指定文件 awk -f awk02.sh /etc/passwd
模式
-
模式部分决定动作语句何时触发及触发事件。处理即对数据进行的操作。如果省略模式部分,动作将时刻保持执行状态。即省略时不对输入记录进行匹配比较就执行相应的actions。
-
模式可以是任何条件语句或正则表达式等。awk_pattern可以是以下几种类型:
- 正则表达式用作awk_pattern: /regexp/ 例如:awk ‘/ ^[a-z]/’ input_file
- 布尔表达式用作awk_pattern,表达式成立时,触发相应的actions执行。
- 表达式中可以使用变量(如字段变量$1,$2等)和/regexp/
- 布尔表达式中的操作符
- 关系操作符: < > <= >= == !=
- 匹配操作符:
- value ~ /regexp/ 如果value匹配/regexp/,则返回真
- value !~ /regexp/ 如果value不匹配/regexp/,则返回真
- 例如:awk ‘$2 > 10 {print “ok”}’ input_file
awk ‘$3 ~ /^d/ {print “ok”}’ input_file
- &&(与) 和 ||(或) 可以连接两个/regexp/或者布尔表达式,构成混合表达式。!(非)可以用于布尔表达式或者/regexp/之前。
例如:awk ‘($1 < 10 ) && ( 2 > 10 ) p r i n t " o k " ′ i n p u t f i l e a w k ′ / d / ∣ ∣ / x 2 > 10) {print "ok"}' input_file awk '/^d/ || /x 2>10)print"ok"′inputfileawk′/d/∣∣/x/ {print “ok”}’ input_file
-
模式包括两个特殊字段 BEGIN 和 END。
- 使用 BEGIN 语句设置计数和打印头。BEGIN 语句使用在任何文本浏览动作之前,之后文本浏览动作依据输入文本开始执行。
- END 语句用来在 awk 完成文本浏览动作后打印输出文本总数和结尾状态标志。
动作
- 实际动作在大括号{ }内指明。
- 动作大多数用来打印,但是还有些更长的代码诸如if和循环语句及循环退出结构。
- 如果不指明采取动作,awk将打印出所有浏览出来的记录。
- awk执行时,其浏览域标记为$1, 2... 2... 2...n。这种方法称为域标识。使用这些域标识将更容易对域进行进一步处理。使用$1 , $3表示参照第1和第3域,注意这里用逗号做域分隔。
- 如果希望打印一个有5个域的记录的所有域,不必指明$1 , $2 , $3 , $4 , $5,可使用$0,意即所有域。
- 为打印一个域或所有域,使用print命令。这是一个awk动作。
awk的运行过程
- 如果BEGIN 区块存在,awk执行它指定的actions。
- awk从输入文件中读取一行,称为一条输入记录。(如果输入文件省略,将从标准输入读
取) - awk将读入的记录分割成字段,将第1个字段放入变量$1中,第2个字段放入$2,以此类
推。$0表示整条记录。 - 把当前输入记录依次与每一个awk_cmd中awk_pattern比较,看是否匹配,如果相匹
配,就执行对应的actions。如果不匹配,就跳过对应的actions,直到比较完所有的
awk_cmd。 - 当一条输入记录比较了所有的awk_cmd后,awk读取输入的下一行,继续重复步骤3和4,这个过程一直持续,直到awk读取到文件尾。
- 当awk读完所有的输入行后,如果存在END,就执行相应的actions。
demo
# awk的总是输出到标准输出,如果想让awk输出到文件,可以使用重定向
# 显示/etc/passwd文件中的用户名和登录shell
awk -F : '{print $1,$7}' /etc/passwd
# 显示/etc/passwd的账户和账户对应的shell,而账户与shell之间以tab键分割
awk -F : '{print $1 "\t" $7}' /etc/passwd
# 显示/etc/passwd文件中的UID大于500的所有用户的用户名和登录shell
awk -F : '$3>500 {print $1,$7}' /etc/passwd
# 显示/etc/passwd文件中的UID大于500的用户名和登录shell,而账户与shell
# 之间以逗号分割,而且在所有行添加列名name,shell,在最后一行添加blue,/bin/nosh
# awk 后面接两个单引号并加上大括号 {} 来设定想要对数据进行的处理动作
# awk工作流程是这样的:先执行BEGING,然后读取文件,读入有\n换行符分割的一条记
# 录,然后将记录按指定的域分隔符划分域,填充域,$0则表示所有域,$1表示第一个域,$n表
# 示第n个域,随后开始执行模式所对应的动作。接着开始读入第二条记录∙∙∙∙∙∙直到所有的记录
# 都读完,最后执行END操作。
awk -F : 'BEGIN {print "name,shell"} $3>500 {print $1,$7} END {print "blue,/bin/nosh"}' /etc/passwd
# 打印所有记录
awk -F : '{print $0}' /etc/passwd
# 搜索/etc/passwd有root关键字的所有行
# 这种是pattern(模式)的使用示例,指定域匹配了pattern(这里是root)的行才会执行action
# 没有指定action,默认输出每行的内容
awk -F : '$1 ~ /root/' /etc/passwd
# 搜索支持正则表达式,例如找root开头
awk -F : '/^root/' /etc/passwd
# 搜索/etc/passwd有root关键字的所有行,并显示对应的shell 这里指定了action是{print $7}
awk -F : '/root/ {print $7}' /etc/passwd
# 显示最近登录系统的5个用户信息,只显示用户名和IP地址
last -n 5 | awk '{print $1,$3}'
last -n 5 | awk '{print $1 "\t" $3}'