现有一段apache的日志,需要从日志中提取出访问量最大的IP。使用shell实现。
日志如下(只是举例,故数据量较小):
$ more aa.txt
127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326
192.168.1.100 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326
192.168.1.100 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326
192.168.1.100 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326
1.要提取访问量最大的IP,需要先从日志中把IP段提取出来。
$ cat aa.txt |awk -F " " '{print $1}'
127.0.0.1
192.168.1.100
192.168.1.100
192.168.1.100
(PS,此处也可以用cut命令实现。
$ cut -d " " -f 1 aa.txt
127.0.0.1
192.168.1.100
192.168.1.100
192.168.1.100)
2.对IP进行统计,看各IP出现过多少次
$ cat aa.txt |awk -F " " '{print $1}' |uniq -c
1 127.0.0.1
3 192.168.1.100
(PS:wc -l也可以对行数统计,但统计的是整体的,所有行数。不会分类统计)
3.按IP出现次数从大到小排列
$ cat aa.txt |awk -F " " '{print $1}' |uniq -c |sort -r
3 192.168.1.100
1 127.0.0.1
-------特别提醒:因我的样例中IP地址是连续出现的,所以可以这样统计。标准方法应该是先sort后uniq,避免相同IP地址不连续的时候被统计多次。
4.再次提取出IP段
$ cat aa.txt |awk -F " " '{print $1}' |uniq -c |sort -r |awk '{print $2}'
192.168.1.100
127.0.0.1
5.选择第一行
$ cat aa.txt |awk -F " " '{print $1}' |uniq -c |sort -r |awk '{print $2}' |head -1
192.168.1.100
这样就把出现次数最多的IP找出来了。
各位,有妙招的欢迎提供~~
转载于:https://blog.51cto.com/xueli/776538