第二天:awk

最新推荐文章于 2024-08-16 13:16:33 发布

weixin_34202952

最新推荐文章于 2024-08-16 13:16:33 发布

阅读量51

点赞数

文章标签： awk shell python

原文链接：https://my.oschina.net/u/566829/blog/223246

版权

2019独角兽企业重金招聘Python工程师标准>>>

awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。

awk有3个不同版本: awk、nawk和gawk，未作特别说明，一般指gawk， gawk 是 AWK 的 GNU 版本。

使用方法： awk ' {pattern + action} ' {filenames}

pattern 表示 AWK 在数据中查找的内容，而 action 是在找到匹配内容时所执行的一系列命令。花括号（{}）不需要在程序中始终出现，但它们用于根据特定的模式对一系列指令进行分组。 pattern就是要表示的正则表达式，用斜杠括起来。

通常，awk是以文件的一行为处理单位的。awk每接收文件的一行，然后执行相应的命令，来处理文本。

调用awk：

1> 命令行方式: awk [-F field-separator] ' commands ' input- file (s)

commands 是真正awk命令，[ -F域分隔符]是可选的。 input- file (s) 是待处理的文件。

在awk中，文件的每一行中，由域分隔符分开的每一项称为一个域。通常，在不指名 - F域分隔符的情况下，默认的域分隔符是空格。

2> shell脚本方式:

将所有的awk命令插入一个文件，并使awk程序可执行，然后awk命令解释器作为脚本的首行，一遍通过键入脚本名称来调用。

相当于shell脚本首行的：# !/bin/ sh 可以换成：# !/bin/ awk

3> 将所有的awk命令插入一个单独文件，然后调用： awk -f awk -script- file input- file (s)

例子：

显示最近登录的5个帐号 last -n 5 | awk ' {print $1} '

awk工作流程是这样的：读入有'\n'换行符分割的一条记录，然后将记录按指定的域分隔符划分域，填充域， $0则表示所有域,$1表示第一个域,$n表示第n个域。

显示/etc/passwd的账户 cat /etc/ passwd | awk -F ' : ' ' {print $1} '

这种是awk+action的示例，每行都会执行action{print $1} -F指定域分隔符为':'

显示/etc/passwd的账户和账户对应的shell,而账户与shell之间以tab键分割

cat /etc/ passwd | awk -F ' : ' ' {print $1"\t"$7} '

显示/etc/passwd的账户和账户对应的shell,而账户与shell之间以逗号分割,而且在所有行添加列名name,shell,在最后一行添加"blue,/bin/nosh"

cat /etc/ passwd | awk -F ' : ' ' BEGIN {print "name,shell"} {print $1","$7} END {print "blue,/bin/nosh"} '

搜索/etc/passwd有root关键字的所有行，并显示对应的shell

awk -F: ' /root/{print $7} ' /etc/ passwd

awk内置变量

FILENAME awk浏览的文件名 NR 已读的记录数 NF  浏览记录的域的个数

 ARGC  命令行参数个数 ARGV 命令行参数排列 ENVIRON  支持队列中系统环境变量的使用

 FNR  浏览文件的记录数 FS  设置输入域分隔符，等价于命令行 -F选项

 OFS   输出域分隔符 ORS   输出记录分隔符 RS   控制记录分隔符

例子：

 统计/etc/passwd:文件名，每行的行号，每行的列数，对应的完整行内容:

 awk -F ':' '{print "filename:" FILENAME ",linenumber:" NR ",columns:" NF ",linecontent:"$0}' /etc/passwd

 使用printf替代print,可以让代码更加简洁，易读

awk -F ':' '{printf("filename:%10s,linenumber:%s,columns:%s,linecontent:%s\n",FILENAME,NR,NF,$0)}' /etc/passwd

awk编程

 变量和赋值

 统计/etc/passwd的账户人数

 awk '{count++;print $0;} END{print "user count is ", count}' /etc/passwd

count是自定义变量。之前的action{}里都是只有一个print,其实print只是一个语句，而action{}可以有多个语句，以;号隔开

上面没有初始化count，虽然默认是0，但是妥当的做法还是初始化为0:

awk 'BEGIN {count=0;print "[start]user count is ", count} {count=count+1;print $0;} END{print "[end]user count is ", count}' /etc/passwd

统计某个文件夹下的文件占用的字节数

ls -l |awk 'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size}'

 以M为单位显示:

 ls -l |awk 'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size/1024/1024,"M"}'

 条件语句

统计某个文件夹下的文件占用的字节数,过滤4096大小的文件(一般都是文件夹):

 ls -l |awk 'BEGIN {size=0;print "[start]size is ", size} {if($5!=4096){size=size+$5;}} END{print "[end]size is ", size/1024/1024,"M"}'

 循环语句

数组 因为awk中数组的下标可以是数字和字母，数组的下标通常被称为关键字(key)。值和关键字都存储在内部的一张针对key/value应用hash的表格里。由于hash不是顺序存储，因此在显示数组内容时会发现，它们并不是按照你预料的顺序显示出来的。数组和变量一样，都是在使用时自动创建的，awk也同样会自动判断其存储的是数字还是字符串。一般而言，awk中的数组用来从记录中收集信息，可以用于计算总和、统计单词以及跟踪模板被匹配的次数等等。

 显示/etc/passwd的账户

 awk -F ':' 'BEGIN {count=0;} {name[count] = $1;count++;}; END{for (i = 0; i < NR; i++) print i, name[i]}' /etc/passwd

 awk处理多个文件

 awk的数据输入有两个来源，标准输入和文件，后一种方式支持多个文件

 shell的Pathname Expansion方式：awk '{...}'  *.txt

 直接指定多个文件：awk '{...}' a.txt b.txt c.txt ...

 处理 2 个文件

 一种是 awk 'NR==FNR{...}NR>FNR{...}'  file1 file2

# 读入file1的时候，已读入file1的记录数FNR一定等于awk已读入的总记录数NR，因为file1是awk读入的首个文件，故读入file1时执行前一个命令块{...} # 读入file2的时候，已读入的总记录数NR一定>读入file2的记录数FNR，故读入file2时执行后一个命令块{...}

 另一种是 awk 'NR==FNR{...;next}{...}' file1 file2

 # 读入file1时，满足NR==FNR，先执行前一个命令块，但因为其中有next命令，故后一个命令块{...}是不会执行的

# 读入file2时，不满足NR==FNR，前一个命令块{..}不会执行，只执行后一个命令块{...}

处理多个文件

1. ARGIND # 当前被处理参数标志
awk 'ARGIND==1{...}ARGIND==2{...}ARGIND==3{...}... ' file1 file2 file3 ...
2. ARGV # 命令行参数数组
awk 'FILENAME==ARGV[1]{...}FILENAME==ARGV[2]{...}FILENAME==ARGV[3]{...}...' file1 file2 file3 ...
3. 把文件名直接加入判断
awk 'FILENAME=="file1"{...}FILENAME=="file2"{...}FILENAME=="file3"{...}...' file1 file2 file3 ...

 awk中正则表达式

 awk中的正则表达式用斜杠(/.../)包括起来

 匹配：使用域号匹配表达式，使用符号'~'后紧跟正则表达式，也可以使用if语句

 awk '{if($4~/good/)print $0}'  readfile

 awk '{$0 ~ /good/}' readfile

 精确匹配：

 awk '{if($3 ~ /字符串/) print $0}' readfile    //包含字符串的所有记录都匹配，不精确

 awk '$3 == "字符串" {print $0}' readfile //确保只有字符串得以匹配，精确匹配

不匹配 awk '{if($4 !~ /匹配字符串/) print $0}' readfile

 小于 < 小于等于 <=  大于 >>

 awk '{if($6<$7) print "xxx"}' readfile

 设置大小写：为查询大小写信息，可以使用[ ]符号

 awk '/[Gg]reen/' readfile   //匹配green Green的行

任意字符

awk '$1 ~/^...a/' readfile //抽取域 1 ，其记录第一域的第四个字符时a

或关系匹配使用或关系符时，语句必须用圆括号括起来

&& AND：语句两边必须同时为真 || OR：语句两边同时或其中一边匹配为！非求逆

转载于:https://my.oschina.net/u/566829/blog/223246

weixin_34202952

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第二天:awk

2019独角兽企业重金招聘Python工程师标准>>> ...
复制链接

扫一扫