目录
1.awk工作原理
逐行读取文本,默认以空格或tab键为分隔符进行分隔,将分隔所得的各个字段保存到内建变量中,并按模式或者条件执行编辑命令。
sed命令常用于一整行的处理,而awk比较倾向于将一行分成多个“字段”然后再进行处理。awk信息的读入也是逐行读取的,执行结果可以通过print的功能将字段数据打印显示。
在使用awk命令的过程中,可以使用逻辑操作符“&&”表示“与”、“||”表示“或”、“!”表示“非”;
还可以进行简单的数学运算,如+、-、*、/、%、^分别表示加、减、乘、除、取余和乘方。
命令格式
awk 选项 '模式或条件 {操作}' 文件 1 文件 2 …
awk -f 脚本文件 文件 1 文件 2 …
awk常见的内建变量(可直接用)
2.awk命令操作演示
2.1 按行输出文本
整行内容
awk '{print}' 文件名
等于
awk '{print $0}' 文件名 $0代表当前处理行的整行内容
输出部分行内容
awk 'NR==1{print $0}' /etc/passwd #查看第1行的内容
awk 'NR==1,NR==3{print $0}' /etc/passwd #查看第1到3行的内容
等于
awk '(NR>=1)&&(NR<=3){print $0}' /etc/passwd #查看1到3行的内容
awk 'NR>=40{print $0}' /etc/passwd #查看大于等于40行的内容
awk '(NR==20)||(NR==30){print $0}' /etc/passwd #查询20或30行的内容
|| 代表或的作用
awk 'NR>=8||NR<=2 {print $0}' 1.sh #输出大于等于8行或小于等于2行的内容
奇数偶数行的输出
awk '(NR%2)==0{print $0}' 1.sh #打印偶数行
awk '(NR%2)==1{print $0}' 1.sh #打印奇数行
awk '{getline;print $0}' 1.sh #打印偶数行
awk '{print $0;getline}' 1.sh #打印奇数行
字符串/正则表达式
2.2 BEGIN模式演示操作
awk 'BEGIN {...}; 条件{...}; END {...}' 文件
BEGIN {...} #表示处理文件前执行的操作
条件{...} #表示对匹配满足指定条件的文件行内容要执行的操作
END {...} #表示处理完文件所有行内容后要执行的操作
例:
awk 'BEGIN {x=0};/\/bin\/bash$/{x++};END {print x}' /etc/passwd
#统计以/bin/bash 结尾的行数,等同于 grep -c "/bin/bash$" /etc/passwd
BEGIN模式表示,在处理指定的文本之前,需要先执行BEGIN模式中指定的动作;awk再处理指定的文本,之后再执行END模式中指定的动作,END{}语句块中,往往会放入打印结果等语句.
awk 'BEGIN{x=0};/nologin$/{x++};END{print x}' /etc/passwd
效果等于
grep -c "nologin$" /etc/passwd
#打印/etc/passwd中以nologin为结尾出现的次数
awk 'BEGIN{x=0};/nologin$/{x++;print x,$0};END{print x}' /etc/passwd
等于
awk 'BEGIN{x=0};/nologin$/{x++};{print x,$0};END{print x}' /etc/passwd
打印/etc/passwd中以nologin为结尾的行数内容及总出现的行数
2.3 按字段输出文本演示操作
awk -F: '/bash$/{print $1}' /etc/passwd #打印以bash结尾行的第一个字段
awk -F: '/bash$/{print $1,$3}' /etc/passwd #输出多个列时,以“,”进行分隔
awk -F: '/bash$/{print $1":"$3}' /etc/passwd #打印多个列,可以使用“指定分隔符”
NF:默认显示每行字段列数
$NF: 当前所在行的最后一个字段
(1)实现条件或控制语句操作
awk '{控制语句条件 {操作}}' 文件
awk '{if(条件表达式) {操作}}' 文件 #行内容满足if的条件则执行操作
三元运算符
变量=条件表达式?值1:值2; {操作} #行内容是否满足条件表达式,如满足取值1,否则取值2
若uid小于等于gid,输出uid;否则输出gid,并打印所在行内容
while循环操作方法11.11
awk 'BEGIN{执行循环前的操作; while(“命令” | getline) 每次循环的操作; 执行循环后的操作}'
#使用while循环对每行内容操作
getline:每获取行并自动跳到下一行
~代表包含
awk -F: '$1~"root" {print $0}' /etc/passwd #打印第一个字段包含"root"的行内容
awk -F: '/root/ {print $0}' /etc/passwd #打印只要包含“root”的行内容
RS行分隔符
awk作替换(ofs:输出的分隔符)
echo a b c d |awk 'BEGIN{OFS=":"};{print $0;$1=$1;print $0}' #OFS输出分隔符为”:“,$1=$1是 激活$0的一种方式
等于
echo a b c d | tr " " ":"
2.4 awk命令的数组操作
注:
2.BEGIN中的命令只执行依次
1.awk数组的下标除了可以使用数字,也可以使用字符串,字符串需要使用双引号
awk '{a[$1]++}; END{for(i in a) {print i,a[i]}}' test.txt
awk '{a[$1]++} test.txt #$1代表test.txt文件中的第一个字段,++自加1;
END{for(i in a) #使用i变量遍历a数组所有的下标
{print i,a[i]}} #输出所有下标及下标值
3.awk常用筛选数据实例
1.统计日志文件里IP出现的次数并加入黑名单
awk '/Failed password/{a[$11]++}; END{for(i in a) if(a[i]>5){print "ssh:"i}}' /var/log/secure >> /etc/hosts.deny
{a[$11]++}; #$11为文件第十一行所有出现的ip地址,通过++收集一共出现多少次
END{for(i in a) #定义i变量遍历a,a为下标$11,
if(a[i]>5){print "ssh:"i}}' >> /etc/hosts.deny #if判断,若出现大于等于5次以ssh:IP地址格式打印出来重定向输出到/etc/hosts.deny
2.awk换算内存使用率
free | awk '/Mem:/{print int($3/$2*10)0"%"}'
3.获取top命令中cpu使用率
先获取top命令的CPU空闲率,再通过计算得到CPU使用率
top -b -n1 | awk -F, '/%Cpu\(s\)/{print$4}' | awk '{print 100-$1"%"}'
4.计算磁盘使用率及空闲率
df | grep -w "/" | awk '{print $5}' #磁盘使用率
df | grep -w "/" | awk '{print 100-$5"%"}' #磁盘空闲率
5.平均负载获取
uptime | awk -F, '{print $3}' | awk '{print $3}' #五分钟平均负载
uptime | awk -F, '{print $4}' #十分钟平均负载
uptime | awk -F, '{print $NF}' #十五分钟平均负载
6.获取IP地址
ifconfig ens33 | awk 'NR==2{print $2}'
7.获取入站流量和出站的流量
ifconfig ens33 | awk '/RX packets/{print $5}' #获取入站的流量
ifconfig ens33 | awk '/TX packets/{print $5}' #获取出站的流量