Linux --- awk

最新推荐文章于 2021-06-19 14:38:03 发布

weixin_30950887

最新推荐文章于 2021-06-19 14:38:03 发布

阅读量72

点赞数

原文链接：http://www.cnblogs.com/Formulate0303/p/8662530.html

版权

这里提到awk，相信写shell的朋友都会接触到。AWK 是一种用于处理文本的编程语言工具。AWK 提供了极其强大的功能：

可以进行正则表达式的匹配
样式装入
流控制
数学运算符
进程控制语句
内置的变量和函数

可以把awk看作一门完全的程序设计语言，它处理文本的速度是快得惊人的。现在很多基于shell 日志分析工具都可以用它完成。设计简单，速度表现很好。涉及到以上六个方面内容，我会在此加以介绍。

1、awk 内置变量使用介绍（转载：http://www.cnblogs.com/chengmo/archive/2010/10/06/1844818.html）

awk是个优秀文本处理工具，可以说是一门程序设计语言。下面是awk内置变量。

1-1.内置变量表

属性	说明
$0	当前记录（作为单个变量）
$1~$n	当前记录的第n个字段，字段间由FS分隔
FS	输入字段分隔符默认是空格
NF	当前记录中的字段个数，就是有多少列
NR	已经读出的记录数，就是行号，从1开始
RS	输入的记录他隔符默认为换行符
OFS	输出字段分隔符默认也是空格
ORS	输出的记录分隔符，默认为换行符
ARGC	命令行参数个数
ARGV	命令行参数数组
FILENAME	当前输入文件的名字
IGNORECASE	如果为真，则进行忽略大小写的匹配
ARGIND	当前被处理文件的ARGV标志符
CONVFMT	数字转换格式 %.6g
ENVIRON	UNIX环境变量
ERRNO	UNIX系统错误消息
FIELDWIDTHS	输入字段宽度的空白分隔字符串
FNR	当前记录数
OFMT	数字的输出格式 %.6g
RSTART	被匹配函数匹配的字符串首
RLENGTH	被匹配函数匹配的字符串长度
SUBSEP	\034

1-2.实例

1、常用操作

[chengmo@localhost ~]$ awk '/^root/{print $0}' /etc/passwd
root:x:0:0:root:/root:/bin/bash

/^root/ 为选择表达式，$0代表是逐行

2、设置字段分隔符号(FS使用方法）

[chengmo@localhost ~]$ awk 'BEGIN{FS=":"}/^root/{print $1,$NF}' /etc/passwd
root /bin/bash

FS为字段分隔符，可以自己设置，默认是空格，因为passwd里面是”:”分隔，所以需要修改默认分隔符。NF是字段总数，$0代表当前行记录，$1-$n是当前行，各个字段对应值。

3、记录条数(NR,FNR使用方法)

[chengmo@localhost ~]$ awk 'BEGIN{FS=":"}{print NR,$1,$NF}' /etc/passwd
1 root /bin/bash
2 bin /sbin/nologin
3 daemon /sbin/nologin
4 adm /sbin/nologin
5 lp /sbin/nologin
6 sync /bin/sync
7 shutdown /sbin/shutdown
……

NR得到当前记录所在行

4、设置输出字段分隔符（OFS使用方法)

[chengmo@localhost ~]$ awk 'BEGIN{FS=":";OFS="^^"}/^root/{print FNR,$1,$NF}' /etc/passwd
1^^root^^/bin/bash

OFS设置默认字段分隔符

5、设置输出行记录分隔符(ORS使用方法）

[chengmo@localhost ~]$ awk 'BEGIN{FS=":";ORS="^^"}{print FNR,$1,$NF}' /etc/passwd
1 root /bin/bash^^2 bin /sbin/nologin^^3 daemon /sbin/nologin^^4 adm /sbin/nologin^^5 lp /sbin/nologin

从上面看，ORS默认是换行符，这里修改为：”^^”，所有行之间用”^^”分隔了。

6、输入参数获取(ARGC ,ARGV使用）

[chengmo@localhost ~]$ awk 'BEGIN{FS=":";print "ARGC="ARGC;for(k in ARGV) {print k"="ARGV[k]; }}' /etc/passwd
ARGC=2
0=awk
1=/etc/passwd

ARGC得到所有输入参数个数，ARGV获得输入参数内容，是一个数组。

7、获得传入的文件名(FILENAME使用)

[chengmo@localhost ~]$ awk 'BEGIN{FS=":";print FILENAME}{print FILENAME}' /etc/passwd

/etc/passwd

FILENAME,$0-$N,NF 不能使用在BEGIN中，BEGIN中不能获得任何与文件记录操作的变量。

8、获得linux环境变量（ENVIRON使用）

[chengmo@localhost ~]$ awk 'BEGIN{print ENVIRON["PATH"];}' /etc/passwd
/usr/lib/qt-3.3/bin:/usr/kerberos/bin:/usr/lib/ccache:/usr/lib/icecc/bin:/usr/local/bin:/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/sbin:/usr/java/jdk1.5.0_17/bin:/usr/java/jdk1.5.0_17/jre/bin:/usr/local/mysql/bin:/home/web97/bin

ENVIRON是子典型数组，可以通过对应键值获得它的值。

9、输出数据格式设置：(OFMT使用）

[chengmo@localhost ~]$ awk 'BEGIN{OFMT="%.3f";print 2/3,123.11111111;}' /etc/passwd
0.667 123.111

OFMT默认输出格式是：%.6g 保留六位小数，这里修改OFMT会修改默认数据输出格式。

10、按宽度指定分隔符（FIELDWIDTHS使用）

[chengmo@localhost ~]$ echo 20100117054932 | awk 'BEGIN{FIELDWIDTHS="4 2 2 2 2 3"}{print $1"-"$2"-"$3,$4":"$5":"$6}'
2010-01-17 05:49:32

FIELDWIDTHS其格式为空格分隔的一串数字，用以对记录进行域的分隔，FIELDWIDTHS="4 2 2 2 2 2"就表示$1宽度是4，$2是2，$3是2 .... 。这个时候会忽略：FS分隔符。

11、RSTART RLENGTH使用

[chengmo@localhost ~]$ awk 'BEGIN{start=match("this is a test",/[a-z]+$/); print start, RSTART, RLENGTH }'
11 11 4
[chengmo@localhost ~]$ awk 'BEGIN{start=match("this is a test",/^[a-z]+$/); print start, RSTART, RLENGTH }'
0 0 –1

RSTART 被匹配正则表达式首位置，RLENGTH 匹配字符长度，没有找到为-1.

以上是：awk的一些内置变量使用，希望有什么问题可以与我交流。

2.Linux shell awk 流程控制语句（if for while do）详细介绍

在linux awk的 while、do-while和for语句中允许使用break,continue语句来控制流程走向，也允许使用exit这样的语句来退出。break中断当前正在执行的循环并跳到循环外执行下一条语句。if 是流程选择用法。 awk中，流程控制语句，语法结构，与c语言类型。下面是各个语句用法。

2-1.条件判断语句(if)

if(表达式) #if ( Variable in Array )
语句1
else
语句2

格式中"语句1"可以是多个语句，如果你为了方便Unix awk判断也方便你自已阅读，你最好将多个语句用{}括起来。Unix awk分枝结构允许嵌套，其格式为：

if(表达式)

{语句1}

else if(表达式)
{语句2}
else
{语句3}

[chengmo@localhost nginx]# awk 'BEGIN{
test=100;
if(test>90)
{
    print "very good";
}
else if(test>60)
{
    print "good";
}
else
{
    print "no pass";
}
}'

very good

每条命令语句后面可以用“；”号结尾。

2-2.循环语句(while,for,do)

1.while语句

格式：

while(表达式)

{语句}

例子：

[chengmo@localhost nginx]# awk 'BEGIN{
test=100;
total=0;
while(i<=test)
{
total+=i;
i++;
}
print total;
}'
5050

2.for 循环

for循环有两种格式：

格式1：

for(变量 in 数组)

{语句}

例子：

[chengmo@localhost nginx]# awk 'BEGIN{
for(k in ENVIRON)
{
print k"="ENVIRON[k];
}
}'

AWKPATH=.:/usr/share/awk
OLDPWD=/home/web97
SSH_ASKPASS=/usr/libexec/openssh/gnome-ssh-askpass
SELINUX_LEVEL_REQUESTED=
SELINUX_ROLE_REQUESTED=
LANG=zh_CN.GB2312

。。。。。。

说明：ENVIRON 是awk常量，是子典型数组。

格式2：

for(变量;条件;表达式)

{语句}

例子：

[chengmo@localhost nginx]# awk 'BEGIN{
total=0;
for(i=0;i<=100;i++)
{
total+=i;
}
print total;
}'

5050

3.do循环

格式：

do

{语句}while(条件)

例子：

[chengmo@localhost nginx]# awk 'BEGIN{
total=0;
i=0;
do
{
total+=i;
i++;
}while(i<=100)
print total;
}'
5050

以上为awk流程控制语句，从语法上面大家可以看到，与c语言是一样的。有了这些语句，其实很多shell程序都可以交给awk，而且性能是非常快的。

break	当 break 语句用于 while 或 for 语句时，导致退出程序循环。
continue	当 continue 语句用于 while 或 for 语句时，使程序循环移动到下一个迭代。
next	能能够导致读入下一个输入行，并返回到脚本的顶部。这可以避免对当前输入行执行其他的操作过程。
exit	语句使主输入循环退出并将控制转移到END,如果END存在的话。如果没有定义END规则，或在END中应用exit语句，则终止脚本的执行。

2-3、性能比较

[chengmo@localhost nginx]# time (awk 'BEGIN{ total=0;for(i=0;i<=10000;i++){total+=i;}print total;}')
50005000

real    0m0.003s
user    0m0.003s
sys     0m0.000s
[chengmo@localhost nginx]# time(total=0;for i in $(seq 10000);do total=$(($total+i));done;echo $total;)
50005000

real    0m0.141s
user    0m0.125s
sys     0m0.008s

实现相同功能，可以看到awk实现的性能是shell的50倍！

3.Linux awk shell 获得外部变量（变量传值）简介

这里主要说下，怎么样把外部变量传入到awk执行语句中。

3-1、基础：

awk [ -F re] [parameter...] ['pattern {action}' ] [-f progfile][in_file...]

awk一般语法如上面所说。

如：

[chengmo@localhost ~]$ echo 'awk code' | awk 'BEGIN{print "start\n============="}{print $0}END{print "=========\nend"}'
start
=============
awk code
=========
end

在 awk中两个特别的表达式，BEGIN和END，这两者都可用于pattern中（参考前面的awk语法），提供BEGIN和END的作用是给程序赋予初始状态和在程序结束之后执行一些扫尾的工作。任何在BEGIN之后列出的操作（在{}内）将在awk开始扫描输入之前执行，而END之后列出的操作将在扫描完全部的输入之后执行。因此，通常使用BEGIN来显示变量和预置（初始化）变量，使用END来输出最终结果。

3-2、获得外部变量方法

1、获得普通外部变量

[chengmo@localhost ~]$ test='awk code'
[chengmo@localhost ~]$ echo | awk '{print test}' test="$test"
awk code
[chengmo@localhost ~]$ echo | awk test="$test" '{print test}'
awk: cmd. line:1: fatal: cannot open file `{print test}' for reading (No such file or directory)

格式如：awk ‘{action}’ 变量名=变量值   ，这样传入变量，可以在action中获得值。注意：变量名与值放到’{action}’后面。

[chengmo@localhost ~]$ echo | awk 'BEGIN{print test}' test="$test"

这种变量在：BEGIN的action不能获得。

2.BEGIN程序块中变量

[chengmo@localhost ~]$ test='awk code'
[chengmo@localhost ~]$ echo | awk -v test="$test" 'BEGIN{print test}'
awk code
[chengmo@localhost ~]$ echo | awk -v test="$test" '{print test}'
awk code

格式如：awk –v 变量名=变量值 [–v 变量2=值2 …] 'BEGIN{action}’ 注意：用-v 传入变量可以在3中类型的action 中都可以获得到，但顺序在 action前面。



3.获得环境变量

[chengmo@localhost ~]$ awk 'BEGIN{for (i in ENVIRON) {print i"="ENVIRON[i];}}'
AWKPATH=.:/usr/share/awk
SSH_ASKPASS=/usr/libexec/openssh/gnome-ssh-askpass
SELINUX_LEVEL_REQUESTED=
SELINUX_ROLE_REQUESTED=
LANG=en_US.UTF-8
.......

只需要调用：awk内置变量 ENVIRON,就可以直接获得环境变量。它是一个字典数组。环境变量名就是它的键值。