awk基础入门

1.awk基本概念
1.1 什么是awk
  • awk是对文本进行分析的一种语言。它是对文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。
1.2 awk工作流程

在这里插入图片描述

  • 读入有’\n’换行符分割的一条记录,然后将记录按指定的域分隔符划分域,填充域,$0则表示所有域, 1 表 示 第 一 个 域 , 1表示第一个域, 1,n表示第n个域。默认域分隔符是"空白键" 或 “[tab]键”
  • 条件包括哪些:
    • 比较符号: > < == !=
    • 正则 : 包含 不包含 开头(^) 结尾($)。awk 可以精确到某一列包含不包含
    • 范围
    • 特殊的
1.3 .awk命令形式
  • awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file

[-F|-f|-v] -F指定分隔符,-f调用脚本,-v定义变量 var=value
’ ’ 引用代码块
BEGIN 初始化代码块,在对每一行进行处理之前,初始化代码,主要是引用全局变量,设置FS分隔符
// 匹配代码块,可以是字符串或正则表达式
{} 命令代码块,包含一条或多条命令
; 多条命令使用分号分隔
END 结尾代码块,在对每一行进行处理之后再执行的代码块,主要是进行最终计算或输出结尾摘要信息

2.awk语法
2.1 awk 内置变量和基本操作符

$0 表示整个当前行
$1 每行第一个字段
NF 字段数量变量 number of fields
NR 每行的记录号,多文件记录递增 number of record
FNR 与NR类似,不过多文件记录不递增,每个文件都从1开始
\t 制表符
\n 换行符
FS BEGIN时定义分隔符
RS :输入的记录分隔符, 默认为按行读取。可自定输入记录分割符 空字符串 按段落读取, 遇到一个空行则默认为一段。 ^ $ 默认一次性读取所有行。
~ 匹配,与==相比不是精确比较
!~ 不匹配,不精确比较
== 等于,必须全部相等,精确比较
!= 不等于,精确比较
&&  逻辑与
|| 逻辑或

+匹配时表示1个或1个以上
/[0-9][0-9]+/ 两个或两个以上数字
/[0-9][0-9]*/ 一个或一个以上数字
FILENAME 文件名
OFS 输出字段分隔符, 默认也是空格,可以改为制表符等
ORS 输出的记录分隔符,默认为换行符,即处理结果也是一行一行输出到屏幕
F’[:#/]’ 定义三个分隔符

3.awk基本概念以及简单使用
  • print
awk '{print}'  /etc/passwd    ==    awk '{print $0}'  /etc/passwd  
# : 作为列分割符 输出第一行
awk -F":" '{print $1}'  /etc/passwd 
 #将每一行的前二个字段,分行输出,进一步理解一行一行处理文本
awk -F: '{print $1; print $2}'   /etc/passwd          
 #输出字段1,3,6,以制表符作为分隔符        
awk  -F: '{print $1,$3,$6}' OFS="\t" /etc/passwd        
  • -f指定脚本文件
awk -f script.awk  file
# script.awk 脚本
BEGIN{
FS=":"
}

 #效果与awk -F":" '{print $1}'相同,只是分隔符使用FS在代码自身中指定
{print $1}              
 
awk 'BEGIN{X=0} /^$/{ X+=1 } END{print "I find",X,"blank lines."}' test 

# 计算文件大小

ls -l|awk 'BEGIN{sum=0} !/^d/{sum+=$5} END{print "total size is",sum}'                    
  • -F指定分隔符 \t是制表符 一个或多个连续的空格或制表符看做一个定界符,即多个空格看做一个空格

awk -F":" '{print $1}'  /etc/passwd
 # $1与$3相连输出,不分隔
awk -F":" '{print $1 $3}'  /etc/passwd             
#  多了一个逗号,$1与$3使用空格分隔         
awk -F":" '{print $1,$3}'  /etc/passwd  
# $1与$3之间手动添加空格分隔                    
awk -F":" '{print $1 " " $3}'  /etc/passwd   
 # 自定义输出                 
awk -F":" '{print "Username:" $1 "\t\t Uid:" $3 }' /etc/passwd 
#显示每行有多少字段     
awk -F: '{print NF}' /etc/passwd
 #将每行第NF个字段的值打印出来                                
awk -F: '{print $NF}' /etc/passwd   
# 显示只有4个字段的行                          
 awk -F: 'NF==4 {print }' /etc/passwd 
 # 显示每行字段数量大于2的行                      
awk -F: 'NF>2{print $0}' /etc/passwd      
 # 输出每行的行号                 
awk '{print NR,$0}' /etc/passwd      
# 依次打印行号,字段数,最后字段值,制表符,每行内容                          
awk -F: '{print NR,NF,$NF,"\t",$0}' /etc/passwd   
#  显示第5行   
awk -F: 'NR==5{print}'  /etc/passwd    
#   显示第5行和第6行                    
awk -F: 'NR==5 || NR==6{print}'  /etc/passwd    
#   不显示第一行  
route -n|awk 'NR!=1{print}'                                   
  • 匹配字符串
 #以下三条指令结果一样 输出匹配 '/mysql/' 的行
awk '/mysql/' /etc/passwd
awk '/mysql/{print }' /etc/passwd
awk '/mysql/{print $0}' /etc/passwd             
 # 输出不匹配mysql的行 
 #  / 正则匹配的意思 
 #  | 指明两项之间的一个选择。

awk '!/mysql/{print $0}' /etc/passwd 
                
awk '/mysql|mail/{print}' /etc/passwd
awk '!/mysql|mail/{print}' /etc/passwd
 #区间匹配匹配 mail开始的行 和mysql结束的行
awk -F: '/mail/,/mysql/{print}' /etc/passwd        
 #匹配包含27为数字开头的行,如27,277,2777... * 匹配0个或多个
awk '/[2][7][7]*/{print $0}' /etc/passwd        
 #第一列是mail的显示 匹配指定内容才显示      
awk -F: '$1~/mail/{print $1}' /etc/passwd         
 #与上面相同
awk -F: '{if($1~/mail/) print $1}' /etc/passwd   
  #不匹配
awk -F: '$1!~/mail/{print $1}' /etc/passwd       
awk -F: '$1!~/mail|mysql/{print $1}' /etc/passwd        
  • IF语句
# 必须用在{}中,且比较内容用()扩起来
 # 简写
awk -F: '{if($1~/mail/) print $1}' /etc/passwd   
 # 全写                                   
awk -F: '{if($1~/mail/) {print $1}}'  /etc/passwd    
 # if...else...
awk -F: '{if($1~/mail/) {print $1} else {print $2}}' /etc/passwd      
  • 条件表达式
==   !=   >   >=  
awk -F":" '$1=="mysql"{print $3}' /etc/passwd  
   # 与上面相同 
awk -F":" '{if($1=="mysql") print $3}' /etc/passwd   
   # 不等于     
awk -F":" '$1!="mysql"{print $3}' /etc/passwd   
   # 大于    
awk -F":" '$3>1000{print $3}' /etc/passwd   
   # 大于等于        
awk -F":" '$3>=100{print $3}' /etc/passwd         
   # 小于        
awk -F":" '$3<1{print $3}' /etc/passwd                   
  # 小于等于    
awk -F":" '$3<=1{print $3}' /etc/passwd                   
  • 逻辑运算符
    && ||
#  逻辑与,$1匹配mail,并且$3>8
awk -F: '$1~/mail/ && $3>8 {print }' /etc/passwd        
awk -F: '{if($1~/mail/ && $3>8) print }' /etc/passwd
#  逻辑或
awk -F: '$1~/mail/ || $3>1000 {print }' /etc/passwd    
awk -F: '{if($1~/mail/ || $3>1000) print }' /etc/passwd 
  • 数值运算
awk -F: '$3 > 100' /etc/passwd    
awk -F: '$3 > 100 || $3 < 5' /etc/passwd  
awk -F: '$3+$4 > 200' /etc/passwd
# 第三个字段加10打印 
awk -F: '/mysql|mail/{print $3+10}' /etc/passwd       
 #  减法      
awk -F: '/mysql/{print $3-$4}' /etc/passwd      
 # 求乘积                  
awk -F: '/mysql/{print $3*$4}' /etc/passwd   
 # 除法            
awk '/MemFree/{print $2/1024}' /proc/meminfo           
 # 取整
awk '/MemFree/{print int($2/1024)}' /proc/meminfo    
  • 输出分隔符OFS
#输出字段6匹配WAIT的行,其中输出每行行号,字段4,5,6,并使用制表符分割字段

awk '$6 ~ /FIN/ || NR==1 {print NR,$4,$5,$6}' OFS="\t" netstat.txt
awk '$6 ~ /WAIT/ || NR==1 {print NR,$4,$5,$6}' OFS="\t" netstat.txt        
  • 输出处理结果到文件
# ①在命令代码块中直接输出 
 route -n|awk 'NR!=1{print > "./fs"}'  
# ②使用重定向进行输出          
 route -n|awk 'NR!=1{print}'  > ./fs
  • printf表示格式输出
netstat -anp|awk '{printf "%-8s %-8s %-10s\n",$1,$2,$3}' 
# %格式化输出分隔符
# -8长度为8个字符
# s表示字符串类型
# 打印每行前三个字段,指定第一个字段输出字符串类型(长度为8),第二个字段输出字符串类型(长度为8),
#第三个字段输出字符串类型(长度为10)
netstat -anp|awk '$6=="LISTEN" || NR==1 {printf "%-10s %-10s %-10s \n",$1,$2,$3}'
netstat -anp|awk '$6=="LISTEN" || NR==1 {printf "%-3s %-10s %-10s %-10s \n",NR,$1,$2,$3}'
  • IF语句
awk -F: '{if($3>100) print "large"; else print "small"}' /etc/passwd
small
small
small
large
small
small

 #ID大于100,A加1,否则B加1
awk -F: 'BEGIN{A=0;B=0} {if($3>100) {A++; print "large"} else {B++; print "small"}} END{print A,"\t",B}' /etc/passwd 
 # 小于100跳过,否则显示                                                                                                          
awk -F: '{if($3<100) next; else print}' /etc/passwd             
awk -F: 'BEGIN{i=1} {if(i<NF) print NR,NF,i++ }' /etc/passwd   
awk -F: 'BEGIN{i=1} {if(i<NF) {print NR,NF} i++ }' /etc/passwd
# 另一种形式
awk -F: '{print ($3>100 ? "yes":"no")}'  /etc/passwd 
awk -F: '{print ($3>100 ? $3":\tyes":$3":\tno")}'  /etc/passwd
  • while语句
awk -F: 'BEGIN{i=1} {while(i<NF) print NF,$i,i++}' /etc/passwd 
7 root 1
7 x 2
7 0 3
7 0 4
7 root 5
7 /root 6
netstat -anp|awk 'NR!=1{a[$6]++} END{for (i in a) print i,"\t",a[i]}'
netstat -anp|awk 'NR!=1{a[$6]++} END{for (i in a) printf "%-20s %-10s %-5s \n", i,"\t",a[i]}'
9523                               1     
9929                               1     
LISTEN                           6     
7903                               1     
3038/cupsd                    1     
7913                               1     
10837                             1     
9833                               1     
3.1 简单应用
  • 应用1
    # 输出文件每行有多少字段
awk -F: '{print NF}' helloworld.sh   
#  输出前5个字段                                              
awk -F: '{print $1,$2,$3,$4,$5}' helloworld.sh
#  输出前5个字段并使用制表符分隔输出                               
awk -F: '{print $1,$2,$3,$4,$5}' OFS='\t' helloworld.sh       
#  //制表符分隔输出前5个字段,并打印行号        
awk -F: '{print NR,$1,$2,$3,$4,$5}' OFS='\t' helloworld.sh          
  • 应用2
  #指定多个分隔符: #,输出每行多少字段
awk -F'[:#]' '{print NF}'  helloworld.sh           
#制表符分隔输出多字段                                    
awk -F'[:#]' '{print $1,$2,$3,$4,$5,$6,$7}' OFS='\t' helloworld.sh   
  • 应用3
# 指定三个分隔符,并输出每行字段数
awk -F'[:#/]' '{print NF}' helloworld.sh  
# 制表符分隔输出多字段                                             
awk -F'[:#/]' '{print $1,$2,$3,$4,$5,$6,$7,$8,$9,$10,$11,$12}' helloworld.sh     
  • 应用4
# 计算/home目录下,普通文件的大小,使用KB作为单位
ls -l|awk 'BEGIN{sum=0} !/^d/{sum+=$5} END{print "total size is:",sum/1024,"KB"}'
ls -l|awk 'BEGIN{sum=0} !/^d/{sum+=$5} END{print "total size is:",int(sum/1024),"KB"}'         //int是取整的意思
  • 应用5
# 统计netstat -anp 状态为LISTEN和CONNECT的连接数量分别是多少
netstat -anp|awk '$6~/LISTEN|CONNECTED/{sum[$6]++} END{for (i in sum) printf "%-10s %-6s %-3s \n", i," ",sum[i]}'
  • 应用6
# 统计/home目录下不同用户的普通文件的总数是多少?
ls -l|awk 'NR!=1 && !/^d/{sum[$3]++} END{for (i in sum) printf "%-6s %-5s %-3s \n",i," ",sum[i]}'   
mysql        199 
root           374 
# 统计/home目录下不同用户的普通文件的大小总size是多少?
ls -l|awk 'NR!=1 && !/^d/{sum[$3]+=$5} END{for (i in sum) printf "%-6s %-5s %-3s %-2s \n",i," ",sum[i]/1024/1024,"MB"}'
  • 应用7
# 输出成绩表
awk 'BEGIN{math=0;eng=0;com=0;printf "Lineno.   Name    No.    Math   English   Computer    Total\n";printf "------------------------------------------------------------\n"}{math+=$3; eng+=$4; com+=$5;printf "%-8s %-7s %-7s %-7s %-9s %-10s %-7s \n",NR,$1,$2,$3,$4,$5,$3+$4+$5} END{printf "------------------------------------------------------------\n";printf "%-24s %-7s %-9s %-20s \n","Total:",math,eng,com;printf "%-24s %-7s %-9s %-20s \n","Avg:",math/NR,eng/NR,com/NR}' test0

[root@localhost home]# cat test0 
Marry   2143 78 84 77
Jack    2321 66 78 45
Tom     2122 48 77 71
Mike    2537 87 97 95
Bob     2415 40 57 62
3.2 应用二:转载出处
  • 在”a b c d”的b后面插入3个字段e f g。
# gsub 替换函数
echo a,b,c,d,e |awk -F"," '{gsub(/b/,"e f g"); print $0}'
# 取出第二列 再追加efg
 echo a,b,c,d,e |awk -F"," '{$2=$2" e f g"; print $0}'

  • 移除每行的前缀、后缀空白,并将各部分左对齐。

#      aaaa        bbb     ccc                 
#   bbb     aaa ccc
# ddd       fff             eee gg hh ii jj

# 赋值的时候会重建$0 会压缩多于的空格

awk 'BEGIN{OFS="\t"}{$1=$1;print}' test.txt
awk '{$2=$2;print}' OFS="\t" test.txt


  • 从ifconfig命令的结果中筛选出除了lo网卡外的所有IPv4地址。
# 方法一: 匹配含有inet的行 并且 第二列不含127 输入出第二列
ifconfig | awk '/inet / && !($2~/127/){print $2}'

# 按照段落提取。排除io段落 取第7列 
ifconfig |awk 'BEGIN{RS=""}!/^lo/{print $7}'


# 先找到mysql那一行,
# 然后开始向下读 遇到[]的结束 
 awk 'index($0,"[mysql]"){print;while((getline)>0){if(/\[*\]/){break} print}}' ./read_mysql.ini 

  
  • 去掉uid=xxx重复的行
2019-01-13_12:00_index?uid=123
2019-01-13_13:00_index?uid=123
2019-01-13_14:00_index?uid=333
2019-01-13_15:00_index?uid=9710
2019-01-14_12:00_index?uid=123
2019-01-14_13:00_index?uid=123
2019-01-15_14:00_index?uid=333
2019-01-16_15:00_index?uid=9710
# 以待去除的字段为数组索引, 默认是0。没出现一次+1 所依只需要输出数组索引中值为1 的
awk -F "?" '{arr[$2]=arr[$2]+1;if(arr[$2]==1){print $0}}' ./unit.txt 

  • 统计字段出现的次数
# portmapper
# portmapper
# portmapper
# status
# status
# mountd
# mountd
# nfs
# nfs
# nfs_acl

# 字段的值为数组的索引 每出现一次 数组的值+1 最终输出遍历循环数组即可
awk '{arr[$1]=arr[$1]+1}END{for(i in arr){print i,arr[i]}}' ./tongji.txt 

  • 统计非200状态码的IP,并取次数最多的前10个IP。
# sort -t ":" -nrk 2 ./b.log  t: 指定字段分割符 -k 按照第几列排序 n 按照数值排序  r 降序
 awk '$8!=200{arr[$1]++}END{for(i in arr){print arr[i],i}}' access.log | sort -k1nr | head -n 10
  • 需求:统计每个URL的独立访问IP有多少个(去重),并且要为每个URL保存一个对应的文件,得到的结果类似
    在这里插入图片描述

# 先去掉$1+$2 相同的 即arr1[$1,$2]=1 
# 然后arr[$1]++ 将所有第一列的值保存起来,key为&1,value为出现的次数。 
awk -F "|" '{arr1[$1,$2]++;if(arr1[$1,$2]==1){arr[$1]++}}END{for(i in arr){print arr[i] > i".txt"}}' ./tongji2.txt
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值