awk基础入门

欧阳喇嘛

已于 2022-04-05 22:22:15 修改

阅读量367

点赞数

分类专栏：其他文章标签：操作系统内存管理网络

于 2022-03-27 22:51:48 首次发布

原文链接：https://www.cnblogs.com/hepeilinnow/p/10331095.html

版权

其他专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

1.awk基本概念

1.1 什么是awk

awk是对文本进行分析的一种语言。它是对文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。

1.2 awk工作流程

在这里插入图片描述

读入有’\n’换行符分割的一条记录，然后将记录按指定的域分隔符划分域，填充域，$0则表示所有域, $1 表示第一个域,$ n表示第n个域。默认域分隔符是"空白键" 或 “[tab]键”
条件包括哪些：
- 比较符号： > < == !=
- 正则 : 包含不包含开头(^) 结尾($)。awk 可以精确到某一列包含不包含
- 范围
- 特殊的

1.3 .awk命令形式

awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file

[-F|-f|-v] -F指定分隔符，-f调用脚本，-v定义变量 var=value
’ ’ 引用代码块
BEGIN 初始化代码块，在对每一行进行处理之前，初始化代码，主要是引用全局变量，设置FS分隔符
// 匹配代码块，可以是字符串或正则表达式
{} 命令代码块，包含一条或多条命令
；多条命令使用分号分隔
END 结尾代码块，在对每一行进行处理之后再执行的代码块，主要是进行最终计算或输出结尾摘要信息

2.awk语法

2.1 awk 内置变量和基本操作符

$0 表示整个当前行
$1 每行第一个字段
NF 字段数量变量 number of fields
NR 每行的记录号，多文件记录递增 number of record
FNR 与NR类似，不过多文件记录不递增，每个文件都从1开始
\t 制表符
\n 换行符
FS BEGIN时定义分隔符
RS ：输入的记录分隔符，默认为按行读取。可自定输入记录分割符空字符串按段落读取, 遇到一个空行则默认为一段。 ^ $ 默认一次性读取所有行。
~ 匹配，与==相比不是精确比较
!~ 不匹配，不精确比较
== 等于，必须全部相等，精确比较
!= 不等于，精确比较
&&　逻辑与
|| 逻辑或

+匹配时表示1个或1个以上
/[0-9][0-9]+/ 两个或两个以上数字
/[0-9][0-9]*/ 一个或一个以上数字
FILENAME 文件名
OFS 输出字段分隔符，默认也是空格，可以改为制表符等
ORS 输出的记录分隔符，默认为换行符,即处理结果也是一行一行输出到屏幕
F’[:#/]’ 定义三个分隔符

3.awk基本概念以及简单使用

awk '{print}'  /etc/passwd    ==    awk '{print $0}'  /etc/passwd  
# : 作为列分割符 输出第一行
awk -F":" '{print $1}'  /etc/passwd 
 #将每一行的前二个字段，分行输出，进一步理解一行一行处理文本
awk -F: '{print $1; print $2}'   /etc/passwd          
 #输出字段1,3,6，以制表符作为分隔符        
awk  -F: '{print $1,$3,$6}' OFS="\t" /etc/passwd

-f指定脚本文件

awk -f script.awk  file
# script.awk 脚本
BEGIN{
FS=":"
}

 #效果与awk -F":" '{print $1}'相同,只是分隔符使用FS在代码自身中指定
{print $1}              
 
awk 'BEGIN{X=0} /^$/{ X+=1 } END{print "I find",X,"blank lines."}' test 

# 计算文件大小

ls -l|awk 'BEGIN{sum=0} !/^d/{sum+=$5} END{print "total size is",sum}'

-F指定分隔符 \t是制表符一个或多个连续的空格或制表符看做一个定界符，即多个空格看做一个空格


awk -F":" '{print $1}'  /etc/passwd
 # $1与$3相连输出，不分隔
awk -F":" '{print $1 $3}'  /etc/passwd             
#  多了一个逗号，$1与$3使用空格分隔         
awk -F":" '{print $1,$3}'  /etc/passwd  
# $1与$3之间手动添加空格分隔                    
awk -F":" '{print $1 " " $3}'  /etc/passwd   
 # 自定义输出                 
awk -F":" '{print "Username:" $1 "\t\t Uid:" $3 }' /etc/passwd 
#显示每行有多少字段     
awk -F: '{print NF}' /etc/passwd
 #将每行第NF个字段的值打印出来                                
awk -F: '{print $NF}' /etc/passwd   
# 显示只有4个字段的行                          
 awk -F: 'NF==4 {print }' /etc/passwd 
 # 显示每行字段数量大于2的行                      
awk -F: 'NF>2{print $0}' /etc/passwd      
 # 输出每行的行号                 
awk '{print NR,$0}' /etc/passwd      
# 依次打印行号，字段数，最后字段值，制表符，每行内容                          
awk -F: '{print NR,NF,$NF,"\t",$0}' /etc/passwd   
#  显示第5行   
awk -F: 'NR==5{print}'  /etc/passwd    
#   显示第5行和第6行                    
awk -F: 'NR==5 || NR==6{print}'  /etc/passwd    
#   不显示第一行  
route -n|awk 'NR!=1{print}'

匹配字符串

 #以下三条指令结果一样 输出匹配 '/mysql/' 的行
awk '/mysql/' /etc/passwd
awk '/mysql/{print }' /etc/passwd
awk '/mysql/{print $0}' /etc/passwd             
 # 输出不匹配mysql的行 
 #  / 正则匹配的意思 
 #  | 指明两项之间的一个选择。

awk '!/mysql/{print $0}' /etc/passwd 
                
awk '/mysql|mail/{print}' /etc/passwd
awk '!/mysql|mail/{print}' /etc/passwd
 #区间匹配匹配 mail开始的行 和mysql结束的行
awk -F: '/mail/,/mysql/{print}' /etc/passwd        
 #匹配包含27为数字开头的行，如27，277，2777... * 匹配0个或多个
awk '/[2][7][7]*/{print $0}' /etc/passwd        
 #第一列是mail的显示 匹配指定内容才显示      
awk -F: '$1~/mail/{print $1}' /etc/passwd         
 #与上面相同
awk -F: '{if($1~/mail/) print $1}' /etc/passwd   
  #不匹配
awk -F: '$1!~/mail/{print $1}' /etc/passwd       
awk -F: '$1!~/mail|mysql/{print $1}' /etc/passwd

IF语句

# 必须用在{}中，且比较内容用()扩起来
 # 简写
awk -F: '{if($1~/mail/) print $1}' /etc/passwd   
 # 全写                                   
awk -F: '{if($1~/mail/) {print $1}}'  /etc/passwd    
 # if...else...
awk -F: '{if($1~/mail/) {print $1} else {print $2}}' /etc/passwd

条件表达式

==   !=   >   >=  
awk -F":" '$1=="mysql"{print $3}' /etc/passwd  
   # 与上面相同 
awk -F":" '{if($1=="mysql") print $3}' /etc/passwd   
   # 不等于     
awk -F":" '$1!="mysql"{print $3}' /etc/passwd   
   # 大于    
awk -F":" '$3>1000{print $3}' /etc/passwd   
   # 大于等于        
awk -F":" '$3>=100{print $3}' /etc/passwd         
   # 小于        
awk -F":" '$3<1{print $3}' /etc/passwd                   
  # 小于等于    
awk -F":" '$3<=1{print $3}' /etc/passwd

逻辑运算符
&&　||

#  逻辑与，$1匹配mail，并且$3>8
awk -F: '$1~/mail/ && $3>8 {print }' /etc/passwd        
awk -F: '{if($1~/mail/ && $3>8) print }' /etc/passwd
#  逻辑或
awk -F: '$1~/mail/ || $3>1000 {print }' /etc/passwd    
awk -F: '{if($1~/mail/ || $3>1000) print }' /etc/passwd

数值运算

awk -F: '$3 > 100' /etc/passwd    
awk -F: '$3 > 100 || $3 < 5' /etc/passwd  
awk -F: '$3+$4 > 200' /etc/passwd
# 第三个字段加10打印 
awk -F: '/mysql|mail/{print $3+10}' /etc/passwd       
 #  减法      
awk -F: '/mysql/{print $3-$4}' /etc/passwd      
 # 求乘积                  
awk -F: '/mysql/{print $3*$4}' /etc/passwd   
 # 除法            
awk '/MemFree/{print $2/1024}' /proc/meminfo           
 # 取整
awk '/MemFree/{print int($2/1024)}' /proc/meminfo

输出分隔符OFS

#输出字段6匹配WAIT的行，其中输出每行行号，字段4，5,6，并使用制表符分割字段

awk '$6 ~ /FIN/ || NR==1 {print NR,$4,$5,$6}' OFS="\t" netstat.txt
awk '$6 ~ /WAIT/ || NR==1 {print NR,$4,$5,$6}' OFS="\t" netstat.txt

输出处理结果到文件

# ①在命令代码块中直接输出 
 route -n|awk 'NR!=1{print > "./fs"}'  
# ②使用重定向进行输出          
 route -n|awk 'NR!=1{print}'  > ./fs

printf表示格式输出

netstat -anp|awk '{printf "%-8s %-8s %-10s\n",$1,$2,$3}' 
# %格式化输出分隔符
# -8长度为8个字符
# s表示字符串类型
# 打印每行前三个字段，指定第一个字段输出字符串类型(长度为8)，第二个字段输出字符串类型(长度为8),
#第三个字段输出字符串类型(长度为10)
netstat -anp|awk '$6=="LISTEN" || NR==1 {printf "%-10s %-10s %-10s \n",$1,$2,$3}'
netstat -anp|awk '$6=="LISTEN" || NR==1 {printf "%-3s %-10s %-10s %-10s \n",NR,$1,$2,$3}'

IF语句

awk -F: '{if($3>100) print "large"; else print "small"}' /etc/passwd
small
small
small
large
small
small

 #ID大于100,A加1，否则B加1
awk -F: 'BEGIN{A=0;B=0} {if($3>100) {A++; print "large"} else {B++; print "small"}} END{print A,"\t",B}' /etc/passwd 
 # 小于100跳过，否则显示                                                                                                          
awk -F: '{if($3<100) next; else print}' /etc/passwd             
awk -F: 'BEGIN{i=1} {if(i<NF) print NR,NF,i++ }' /etc/passwd   
awk -F: 'BEGIN{i=1} {if(i<NF) {print NR,NF} i++ }' /etc/passwd
# 另一种形式
awk -F: '{print ($3>100 ? "yes":"no")}'  /etc/passwd 
awk -F: '{print ($3>100 ? $3":\tyes":$3":\tno")}'  /etc/passwd

while语句

awk -F: 'BEGIN{i=1} {while(i<NF) print NF,$i,i++}' /etc/passwd 
7 root 1
7 x 2
7 0 3
7 0 4
7 root 5
7 /root 6

数组 : 数组的详细使用

netstat -anp|awk 'NR!=1{a[$6]++} END{for (i in a) print i,"\t",a[i]}'
netstat -anp|awk 'NR!=1{a[$6]++} END{for (i in a) printf "%-20s %-10s %-5s \n", i,"\t",a[i]}'
9523                               1     
9929                               1     
LISTEN                           6     
7903                               1     
3038/cupsd                    1     
7913                               1     
10837                             1     
9833                               1

3.1 简单应用

应用1

    # 输出文件每行有多少字段
awk -F: '{print NF}' helloworld.sh   
#  输出前5个字段                                              
awk -F: '{print $1,$2,$3,$4,$5}' helloworld.sh
#  输出前5个字段并使用制表符分隔输出                               
awk -F: '{print $1,$2,$3,$4,$5}' OFS='\t' helloworld.sh       
#  //制表符分隔输出前5个字段，并打印行号        
awk -F: '{print NR,$1,$2,$3,$4,$5}' OFS='\t' helloworld.sh

应用2

  #指定多个分隔符: #，输出每行多少字段
awk -F'[:#]' '{print NF}'  helloworld.sh           
#制表符分隔输出多字段                                    
awk -F'[:#]' '{print $1,$2,$3,$4,$5,$6,$7}' OFS='\t' helloworld.sh

应用3

# 指定三个分隔符，并输出每行字段数
awk -F'[:#/]' '{print NF}' helloworld.sh  
# 制表符分隔输出多字段                                             
awk -F'[:#/]' '{print $1,$2,$3,$4,$5,$6,$7,$8,$9,$10,$11,$12}' helloworld.sh

应用4

# 计算/home目录下，普通文件的大小，使用KB作为单位
ls -l|awk 'BEGIN{sum=0} !/^d/{sum+=$5} END{print "total size is:",sum/1024,"KB"}'
ls -l|awk 'BEGIN{sum=0} !/^d/{sum+=$5} END{print "total size is:",int(sum/1024),"KB"}'         //int是取整的意思

应用5

# 统计netstat -anp 状态为LISTEN和CONNECT的连接数量分别是多少
netstat -anp|awk '$6~/LISTEN|CONNECTED/{sum[$6]++} END{for (i in sum) printf "%-10s %-6s %-3s \n", i," ",sum[i]}'

应用6

# 统计/home目录下不同用户的普通文件的总数是多少？
ls -l|awk 'NR!=1 && !/^d/{sum[$3]++} END{for (i in sum) printf "%-6s %-5s %-3s \n",i," ",sum[i]}'   
mysql        199 
root           374 
# 统计/home目录下不同用户的普通文件的大小总size是多少？
ls -l|awk 'NR!=1 && !/^d/{sum[$3]+=$5} END{for (i in sum) printf "%-6s %-5s %-3s %-2s \n",i," ",sum[i]/1024/1024,"MB"}'

应用7

# 输出成绩表
awk 'BEGIN{math=0;eng=0;com=0;printf "Lineno.   Name    No.    Math   English   Computer    Total\n";printf "------------------------------------------------------------\n"}{math+=$3; eng+=$4; com+=$5;printf "%-8s %-7s %-7s %-7s %-9s %-10s %-7s \n",NR,$1,$2,$3,$4,$5,$3+$4+$5} END{printf "------------------------------------------------------------\n";printf "%-24s %-7s %-9s %-20s \n","Total:",math,eng,com;printf "%-24s %-7s %-9s %-20s \n","Avg:",math/NR,eng/NR,com/NR}' test0

[root@localhost home]# cat test0 
Marry   2143 78 84 77
Jack    2321 66 78 45
Tom     2122 48 77 71
Mike    2537 87 97 95
Bob     2415 40 57 62

3.2 应用二：转载出处

在”a b c d”的b后面插入3个字段e f g。

# gsub 替换函数
echo a,b,c,d,e |awk -F"," '{gsub(/b/,"e f g"); print $0}'
# 取出第二列 再追加efg
 echo a,b,c,d,e |awk -F"," '{$2=$2" e f g"; print $0}'

移除每行的前缀、后缀空白，并将各部分左对齐。


#      aaaa        bbb     ccc                 
#   bbb     aaa ccc
# ddd       fff             eee gg hh ii jj

# 赋值的时候会重建$0 会压缩多于的空格

awk 'BEGIN{OFS="\t"}{$1=$1;print}' test.txt
awk '{$2=$2;print}' OFS="\t" test.txt

从ifconfig命令的结果中筛选出除了lo网卡外的所有IPv4地址。

# 方法一: 匹配含有inet的行 并且 第二列不含127 输入出第二列
ifconfig | awk '/inet / && !($2~/127/){print $2}'

# 按照段落提取。排除io段落 取第7列 
ifconfig |awk 'BEGIN{RS=""}!/^lo/{print $7}'

awk读取.ini配置文件中的某段
getline的用法 :getline的用法

# 先找到mysql那一行,
# 然后开始向下读 遇到[]的结束 
 awk 'index($0,"[mysql]"){print;while((getline)>0){if(/\[*\]/){break} print}}' ./read_mysql.ini

去掉uid=xxx重复的行

2019-01-13_12:00_index?uid=123
2019-01-13_13:00_index?uid=123
2019-01-13_14:00_index?uid=333
2019-01-13_15:00_index?uid=9710
2019-01-14_12:00_index?uid=123
2019-01-14_13:00_index?uid=123
2019-01-15_14:00_index?uid=333
2019-01-16_15:00_index?uid=9710

# 以待去除的字段为数组索引, 默认是0。没出现一次+1 所依只需要输出数组索引中值为1 的
awk -F "?" '{arr[$2]=arr[$2]+1;if(arr[$2]==1){print $0}}' ./unit.txt

统计字段出现的次数

# portmapper
# portmapper
# portmapper
# status
# status
# mountd
# mountd
# nfs
# nfs
# nfs_acl

# 字段的值为数组的索引 每出现一次 数组的值+1 最终输出遍历循环数组即可
awk '{arr[$1]=arr[$1]+1}END{for(i in arr){print i,arr[i]}}' ./tongji.txt

统计非200状态码的IP，并取次数最多的前10个IP。

# sort -t ":" -nrk 2 ./b.log  t: 指定字段分割符 -k 按照第几列排序 n 按照数值排序  r 降序
 awk '$8!=200{arr[$1]++}END{for(i in arr){print arr[i],i}}' access.log | sort -k1nr | head -n 10

需求：统计每个URL的独立访问IP有多少个(去重)，并且要为每个URL保存一个对应的文件，得到的结果类似


# 先去掉$1+$2 相同的 即arr1[$1,$2]=1 
# 然后arr[$1]++ 将所有第一列的值保存起来,key为&1,value为出现的次数。 
awk -F "|" '{arr1[$1,$2]++;if(arr1[$1,$2]==1){arr[$1]++}}END{for(i in arr){print arr[i] > i".txt"}}' ./tongji2.txt

欧阳喇嘛

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
awk基础入门

文章目录1.awk基本概念1.1 什么是awk1.2 awk工作流程是这样的1.3 .awk命令形式2.awk语法2.1 awk 内置变量和基本操作符3.awk基本概念以及简单使用3.1 简单应用其他应用: https://junmajinlong.com/shell/awk/awk_examples/1.awk基本概念1.1 什么是awkawk是对文本进行分析的一种语言。它是对文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。1.2 awk工作流程是这样的读入有’
复制链接

扫一扫

专栏目录