Apache日志分析

最新推荐文章于 2024-10-08 20:12:12 发布

毛仁奇

最新推荐文章于 2024-10-08 20:12:12 发布

阅读量520

点赞数

分类专栏： Apache

Apache 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1、获得访问前10位的ip地址

cat access.log|awk '{print $1}'|sort|uniq -c|sort -nr|head -10

cat access.log|awk '{counts[$(11)]+=1}; END {for(url in counts) print counts[url], url}'

2、访问次数最多的文件或页面,取前20及统计所有访问IP

cat access.log|awk '{print $11}'|sort|uniq -c|sort -nr|head -20

awk '{ print $1}' access.log |sort -n -r |uniq -c|wc -l

3、列出传输最大的几个exe文件（分析下载站的时候常用）

cat access.log |awk '($7~/\.exe/){print $10 " " $1 " " $4 " " $7}'|sort -nr|head -20

4、列出输出大于200000byte(约200kb)的exe文件以及对应文件发生次数

cat access.log |awk '($10 > 200000 && $7~/\.exe/){print $7}'|sort -n|uniq -c|sort -nr|head -100

5、如果日志最后一列记录的是页面文件传输时间，则有列出到客户端最耗时的页面

cat access.log |awk '($7~/\.php/){print $NF " " $1 " " $4 " " $7}'|sort -nr|head -100

6、列出最最耗时的页面(超过60秒的)的以及对应页面发生次数

cat access.log |awk '($NF > 60 && $7~/\.php/){print $7}'|sort -n|uniq -c|sort -nr|head -100

7、列出传输时间超过 30 秒的文件

cat access.log |awk '($NF > 30){print $7}'|sort -n|uniq -c|sort -nr|head -20

8、统计网站流量（G)

cat access.log |awk '{sum+=$10} END {print sum/1024/1024/1024}'

9、统计404的连接

awk '($9 ~/404/)' access.log | awk '{print $9,$7}' | sort

10、统计http status.

cat access.log |awk '{counts[$(9)]+=1}; END {for(code in counts) print code, counts[code]}'

cat access.log |awk '{print $9}'|sort|uniq -c|sort -rn

11、每秒并发：

awk '{if($9~/200|30|404/)COUNT[$4]++}END{for( a in COUNT) print a,COUNT[a]}'|sort -k 2 -nr|head -n10

12、带宽统计

cat apache.log |awk '{if($7~/GET/) count++}END{print "client_request="count}'

cat apache.log |awk '{BYTE+=$11}END{print "client_kbyte_out="BYTE/1024"KB"}'

13、统计对象数量及对象平均大小

cat access.log |awk '{byte+=$10}END{ print byte/NR/1024,NR}'

cat access.log |awk '{if($9~/200|30/)COUNT[$NF]++}END{for( a in COUNT) print a,COUNT [a],NR,COUNT[a]/NR*100"%"}

14、取5分钟日志

if [ $DATE_MINUTE != $DATE_END_MINUTE ] ;then #则判断开始时间戳与结束时间戳是否相等START_LINE=`sed -n "/$DATE_MINUTE/=" $APACHE_LOG|head -n1` #如果不相等，则取出开始时间戳的行号，与结束时间戳的行号

#END_LINE=`sed -n "/$DATE_END_MINUTE/=" $APACHE_LOG|tail -n1`

END_LINE=`sed -n "/$DATE_END_MINUTE/=" $APACHE_LOG|head -n1`sed -n "${START_LINE},${END_LINE}p" $APACHE_LOG > $MINUTE_LOG ##通过行号，取出5分钟内的日志内容存放到临时文件中

GET_START_TIME=`sed -n "${START_LINE}p" $APACHE_LOG|awk -F '[' '{print $2}' |awk '{print $1}'|

sed 's#/# #g'|sed 's#:# #'` #通过行号获取取出开始时间戳

GET_END_TIME=`sed -n "${END_LINE}p" $APACHE_LOG|awk -F '[' '{print $2}' |awk '{print $1}'|sed

's#/# #g'|sed 's#:# #'` #通过行号获取结束时间戳

15、蜘蛛分析

查看是哪些蜘蛛在抓取内容

cat access_log_p.com | awk '{print $1"s1"$2"s2"$3"s3"$4"s4"$5"s5"$6"s6"$7"s7"$8"s8"$9"s9"$10"s10"$11"s11"$12"s12"}'
202.101.202.20 s1-s2-s3[01/Jul/2014:09:06:27s4+0800]s5"GETs6/n/article/yydt/p73a927.htmls7HTTP/1.1"s8200s910413s10"http://www.baidu.com"s11"Mozilla/4.0s12