linux中awk进行日志文本的处理过滤

最新推荐文章于 2024-08-05 22:01:46 发布

风清_云扬

最新推荐文章于 2024-08-05 22:01:46 发布

阅读量7.4k

点赞数 1

分类专栏：笔记文章标签： awk linux

本文链接：https://blog.csdn.net/DittyChen/article/details/78087963

版权

笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

对于awk命令的介绍可查看linux命令大全http://man.linuxde.net/awk

linux下日志分析很常见也很重要，看见那一片如汪洋般的日志，想死的心都有了，过滤出关键日志，查看重要信息，定位分析问题也是必须要掌握的一门技能；

因此coding的时候对日志格式的设计规范很重要，直接决定了bug的定位速度，一般日志过滤处理主要有以下几种方式：

1.查找关键日志grep
2.精简日志内容 sed
3.对记录进行排序sort
4.统计日志相关记录数 awk

这里我介绍下awk这种linux中的文本处理技术。

awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入(stdin)、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。awk有很多内建的功能，比如数组、函数等，这是它和C语言的相同之处，灵活性是awk最大的优势。

awk命令格式和选项语法形式

awk [options] 'script' var=value file(s)

awk [options] -f scriptfile var=value file(s)

常用命令选项

-F fs fs指定输入分隔符，fs可以是字符串或正则表达式，如-F:

-v var=value 赋值一个用户定义变量，将外部变量传递给awk

-f scripfile 从脚本文件中读取awk命令

-m[fr] val 对val值设置内在限制，-mf选项限制分配给val的最大块数目；-mr选项限制记录的最大数目。这两个功能是Bell实验室版awk的扩展功能，在标准awk中不适用。
awk的工作原理

awk 'BEGIN{ commands } pattern{ commands } END{ commands }'

第一步：执行BEGIN{ commands }语句块中的语句；

第二步：从文件或标准输入(stdin)读取一行，然后执行pattern{ commands }语句块，它逐行扫描文件，从第一行到最后一行重复这个过程，直到文件全部被读取完毕。

第三步：当读至输入流末尾时，执行END{ commands }语句块。

BEGIN语句块在awk开始从输入流中读取行之前被执行，这是一个可选的语句块，比如变量初始化、打印输出表格的表头等语句通常可以写在BEGIN语句块中。

END语句块在awk从输入流中读取完所有的行之后即被执行，比如打印所有行的分析结果这类信息汇总都是在END语句块中完成，它也是一个可选语句块。

pattern语句块中的通用命令是最重要的部分，它也是可选的。如果没有提供pattern语句块，则默认执行{ print }，即打印每一个读取到的行，awk读取的每一行都会执行该语句块。

awk简单使用：

 [plain]view plaincopy 
   
 awk [-v 变量名=变量值] [-Fre] [--] '模式 { 语句 }' 变量名=变量值 文件名  
 awk [-v 变量名=变量值] [-Fre] -f 脚本文件 [--] 变量名=变量值 文件名

和sed一样，awk也支持2中方式调用，一种是把awk脚本直接在命令行写入，第二种是把awk写在文件中在命令行中调用。

awk处理方式也与sed类似，对文件中的每一个输入行进行处理，每个处理首先判断是否是模式中匹配的行，是的话就具体执行相应的语句。

不同的是，awk侧重与对每一行的列进行处理，并且，awk脚本和c语言类似也拥有变量，条件判断，循环等复杂语句，所以这里只能简单介绍一下基本应用，详细的请查看后面给出的相关链接。

而且，awk在处理所有行前和处理完行后各有BEGIN和END语句做预处理和后置处理。

例1：打印日志中的第2，3列

[plain]view plaincopy 
   
 awk 'BEGIN{FS="@"} {print $2,$3}' demo.log_after_sort   #BEGIN中预处理的是，把@号作为行的列分割符,把分割后的行的第2，3列输出

输出：（对于从sort得出的结果作为输入）
10117 INFO
10117 INFO
10117 ERROR
10117 ERROR
10117 ERROR
10222 INFO
...略

例2. 统计日志中INFO，ERROR出现的总数,以及总记录数

[plain]view plaincopy 
   
 
   
 #下面的例子是作为命令行输入的，利用单引号作为换行标记，这样就不用另外把脚本写进文件调用了  
 awk '  
 BEGIN {  
   FS="@"  
 }  
   
 {  
   if ($3 == "INFO") {info_count++}  
   if ($3 == "ERROR") {error_count++}  
   
 }  
   
 END {  
   print "order total count:"NR           #NR是awk内置变量，是遍历的当前行号，到了END区域自然行号就等于总数了  
   printf("INFO count:%d ERROR count:%d\n",info_count,error_count)  
 } ' demo.log_after_sort  

输出：

order total count:22
INFO count:5 ERROR count:17

例3. 对指定时间范围内的日志进行统计，包括输出INFO，ERROR总数，记录总数，每个订单记录分类统计

下面的例子综合了前面sed和sort

[plain]view plaincopy 
   
 sed -f demo.sed demolog.log | sort -t@ -k2,2n -k3,3r -k1,1 | awk -f demo.awk

[plain]view plaincopy 
   
 
   
 #demo.awk  
 BEGIN {  
   FS="@"  
   stime="2011-08-23 19:57:31"  
   etime="2011-08-23 19:57:37"  
 }  
   
 $1 > stime && $1 < etime {  
   if ($3 == "INFO") {info_count++}  
   if ($3 == "ERROR") {error_count++}  
   
   ++total  
   
   status[$2]=status[$2]"\t"$1"\t"$3"\t"$4"\n"  
   
 }  
   
 END {  
   for(i in status){  
       printf("id:%s:\n%s\n",i,status[i])  
   }  
   
   print "order total count:"total  
   printf("INFO count:%d ERROR count:%d\n",info_count,error_count)  
 } <span style="font-size:18px;"><strong>  
 </strong></span>  

输出：

id:10117:

2011-08-23 19:57:32 INFO status:attr_ids成功保存为0|100104|0|100105|100107
2011-08-23 19:57:32 ERROR status:添加属性id，但由于认证分类参数有误默认取匹配属性名称的第一个属性id：100107

id:10226:

2011-08-23 19:57:32 INFO status:attr_ids不含0跳过
2011-08-23 19:57:32 ERROR status:添加属性id，但由于没有属性在该分类下默认取匹配属性名称的第一个属性id：100104
2011-08-23 19:57:33 ERROR status:添加属性id，但由于没有属性在该分类下默认取匹配属性名称的第一个属性id：100107
2011-08-23 19:57:33 ERROR status:添加属性id，但由于没有属性在该分类下默认取匹配属性名称的第一个属性id：46
2011-08-23 19:57:34 ERROR status:添加属性id，但由于没有属性在该分类下默认取匹配属性名称的第一个属性id：100106
2011-08-23 19:57:35 ERROR status:添加属性id，但由于没有属性在该分类下默认取匹配属性名称的第一个属性id：100105

#这个例子只是举例说明awk的统计用法，实际运用中可能会统计超时的次数，页面访问次数等。

其他实践时例子：

1. 在本地分支把代码修改从一个分支复制到另一个分支（例子的b1022st.txt是一个记录了文件新增或修改的变化的文件路径名）

[plain]view plaincopy 
   
 awk 'BEGIN{FS="b1022-scm/"} {system("cp -rf b1022-scm/"$2" b1022-lpscm/"$2);}' /home/nizen/b1022st.txt

通过awk和其system命令结合，这样就把文件从b1022-scm复制到b1022-lpscm下

2.内置函数 http://www.cnblogs.com/chengmo/archive/2010/10/08/1845913.html
3.内建变量 http://www.linuxsong.org/2010/09/awk-built-in-variable/
4.shell变量传递 http://www.51testing.com/?uid-225738-action-viewspace-itemid-246383
5.awk统计某个开始-结束范围内的关键字累加总数：

[java]view plaincopy 
   
 
   
 BEGIN {  
   running=0  
   count=0  
   startRow="begin =====>" id            #id,nextId是通过-v 参数从外部传入  
   endRow="begin =====>" nextId  
 }  
   
 $0 ~ startRow{    # ～是匹配运算符，判断$0是否满足startRow正则表达式  
   running = 1  
 #  printf("start\n")  
 }  
   
 $0 ~ endRow {  
   running = 0  
 #  printf("end\n")  
 }  
   
 {  
   if(running==1) {      # 仅在startRow 和 endRow 范围内统计  
     if($0 ~ "it show") {  
 #        printf($0 "\n")  
         str=$0  
         sub(/^.*show times:/, "", str)  
         sub(/ .*$/, "", str)  
         printf(str "\n")  
         count = count + str  
     }  
   }  
 }  
   
 END {  
   printf("showTimeCount:"+count)  
 }