基于awk的nginx日志分析

最新推荐文章于 2022-06-27 22:18:37 发布

云--泥

最新推荐文章于 2022-06-27 22:18:37 发布

阅读量1.4k

点赞数

分类专栏： web awk java 文章标签： awk

本文链接：https://blog.csdn.net/weixin_36087172/article/details/98482244

版权

web 同时被 3 个专栏收录

13 篇文章 0 订阅

订阅专栏

java

3 篇文章 0 订阅

订阅专栏

awk

1 篇文章 0 订阅

订阅专栏

基于awk的nginx日志分析

基于awk的nginx日志分析

基于awk的nginx日志分析

在系统调优的时候，经常要去分析nginx的请求日志，统计、分析各个时间段的请求量。当然分析nginx日志的方法很多，本文使用awk技术分析日志。

定义

awk是什么
awk是一个强大的文本分析工具，awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。awk语言的最基本功能是在文件或者字符串中基于指定规则浏览和抽取信息，awk抽取信息后，才能进行其他文本操作。

之所以叫awk是因为其取了三位创始人Alfred Aho、Peter Weinberger和Barian Kernighan的Family Name的首字母。

在 20 世纪 80 年代中期，对 AWK 语言进行了更新，并不同程度地使用一种称为 NAWK (New AWK) 的增强版本对其进行了替换。许多系统中仍然存在着旧的 AWK 解释器，但通常将其安装为 oawk (Old AWK) 命令，而 NAWK 解释器则安装为主要的 awk 命令，也可以使用 nawk 命令。Dr. Kernighan 仍然在对 NAWK 进行维护，与 GAWK 一样，它也是开放源代码的，并且可以免费获得（请参见参考资料部分）。

GAWK 是 GNUProject 的 AWK 解释器的开放源代码实现。尽管早期的GAWK 发行版是旧的 AWK 的替代程序，但不断地对其进行了更新，以包含 NAWK 的特性。

一般的，AWK 始终表示引用通用的语言，而 GAWK 或 NAWK 实现所特有的特性则使用它们的名称进行引用。
基本概念
NR（Number of Record，记录数，awk中默认一行为一个记录）
NF （ Number of Fileds ）是指awk正在处理的记录包含几个域（字段），这与域分隔符有关，默认是空白字符(即空格)，awk默认以空白字符为分隔符对每一行进行分割。指定使用"#"作为输入分隔符，比如：awk -F# ‘{print $1,$2}’ test

$0 为获取全部的列
$N 为第N列

语法
awk -F ‘文本切割符’‘{处理过程}’ 文件名称
awk、sed、grep比较
grep 更适合单纯的查找或匹配文本
sed 更适合编辑匹配到的文本
awk 更适合格式化文本，对文本进行较复杂格式处理

nginx日志

常见的nginx日志格式

log_format main '$http_x_forwarded_for - $remote_user [$time_iso8601] "$request" '
                   '$status $body_bytes_sent "$http_referer" '
                   '"$http_user_agent" $remote_addr $request_time $http_host ';

49.4.16.120 - - [2019-07-24T11:32:05+08:00] "GET /dict.do?from=huohou&appkey=sowOTUsbfI&type=62&dataType=json&title=好好学习 HTTP/1.1" 200 154 "-" "Vert.x-WebClient/3.5.4" 192.168.1.7 0.014 api.hudong.com

awk分析示例

打印第一列

// 打印第一列
cat access.log | awk   '{print  $1}'
// 打印所有列
cat access.log | awk   '{print  $0}'
// 打印奇数行
awk  -F " "  ' NR%2==1{print $0}'  access.log

取第二行第三列的内容

cat access.log | awk 'NR==2 {print $3}'

匹配，match的使用

// 包含dict请求，相应时间小于0.112s
cat access.log | awk  -F " "   ' {if(match($0,"dict")&&($(NF-1) < 0.112)){print NR,$0}}' 
//或者
cat access.log | awk  -F " "   ' match($0,"dict")&&($(NF-1) < 0.112){print NR,$0}' 
cat access.log | awk  -F " "   ' match($0,"dict")&&($(NF-1) < 0.112)&&NR<5{print NR,$0}' 

cat access.log | awk  -F " "   ' NR<5&&match($0,"dict")&&($(NF-1) < 0.112){print NR,$0}'

Awk读取文件第5行到第十行内容输出其中包含关键字的行号以及内容

cat access.log | awk '(NR>=5&&NR<=10){print NR,$0}' 
//或者
cat access.log | awk 'NR==5,NR==10{print NR,$0}'

AWK如何打印从某一列到最后一列的内容

cat access.log |awk -F " "  'NR==2 {for (i=1;i<=NF;i++)printf("%s%s%s ", i,"======",$i);print ""}'    
//或者使用print函数，会换行
cat access.log |awk -F " "  'NR==12 {for (i=1;i<=NF;i++)print( i  "======"  $i)}'

格式化输出

awk '{printf "|%-30s|\n",$1}'     access.log
//30个格、向左对齐的字符串
awk 'NR==3{printf "|%30s|\n",$1}'     access.log

带条件筛选

cat access.log   | awk -F " "   '$(NF-1) > 2 && $(NF-1) <4{print $(NF-1) "\t"  "===============" $0}'

打印总行数
在Unix awk中两个特别的表达式，BEGIN和END，这两者都可用于pattern中（参考前面的awk语法），提供BEGIN和END的作用是给程序赋予初始状态和在程序结束之后执行一些扫尾的工作。

awk 'END{print NR}' access.log
// 
awk  ' BEGIN { print "统计";total=0} {total=total+1}END {printf "总计：%.2f",total}'   access.log


awk  ' BEGIN { print "统计";total=0} {total=total+1}END {printf "总计：%.2f",total}'   access.log

列倒序排

awk  -F " "   'BEGIN{} { for (i=NF;i>0;i--){if(i!=1){printf("%s%s",$i,FS)}else{printf("%s",$i)}    }}' access.log

获得某个时间段的行数

grep '2019-07-24T00:00'   access.log | wc -l

//或者
grep '2019-07-24T00:00'   access.log | awk -F “”  'END{print NR}'

注：wc -l
统计输出信息的行数。更准确的来说，wc -l原本就不是用来查看行数的，而是用来查看文件的newline的数量的。
11. 排序

awk -F " " 'NR==1,NR==20{print $4}' access.log |sort
//从大到小
awk -F " " 'NR==1,NR==20{print $4}' access.log |sort -r
//或者
awk -F " " 'NR==1,NR==20{print $4, $16  | "sort -r"}'   access.log
//按照第二列排序
awk -F " " 'NR==1,NR==20{print $4, $16  | "sort -r -k2"}'   access.log

//统计ip 并排序
awk -F " " 'NR==1,NR==200{print $4, $1  | "sort -r -k2"}'   access.log

根据ip统计请求次数并排序

awk  '{sum[$1]++}END{for(ip in sum) print ip, sum[ip]}'    access.log 

awk  '{sum[$1]++}END{for(ip in sum) print ip, sum[ip]}'    access.log | sort -rn -k2|head

注：
-r 逆序，从大到小，-n 已数值作比较，可以连写为-rn；
head 命令表示选取文本的前x行。通过head -5 就可以得到排序结果中前五行的内容。
默认输出文件前10行

统计ip请求大于某一个值的

awk  '{sum[$1]++}END{for(ip in sum){if(sum[ip]>2000) print ip, sum[ip]} }'    access.log | sort -rn -k2|head
//等价于
awk '{print $1}' access.log|sort | uniq -c |sort -n -k 1 -r|head

注：
uniq 命令用来过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行
常用： uniq -c 首行显示文件中出现的次数

用户请求时间段统计

awk  '{split($4,a,":");b[a[1]]+=1} END{for(i in b) printf("%10s %5d\n",i,b[i])}' 

awk  '{gsub( "T"," ",$4),split($4,a,":");b[a[1]]+=1} END{for(i in b) printf("%10s %5d\n",i,b[i])}' 

awk  '{split($4,a,":");b[a[1]]+=1} END{for(i in b) printf("%10s %5d\n",i,b[i])}'      access.log

执行函数

$ awk -f functions.awk

//新建一个functions.awk文件，内容为：
function addition(num1, num2)
{
    result = num1 + num2

    return result
}

BEGIN {
    res = addition(10, 20)
    print "10 + 20 = " res
}

云--泥

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
基于awk的nginx日志分析

基于awk的nginx日志分析基于awk的nginx日志分析定义实践功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入基...
复制链接

扫一扫

专栏目录