Shell实例——输出网站访问量TOP10

最新推荐文章于 2022-08-11 21:31:11 发布

「已注销」

最新推荐文章于 2022-08-11 21:31:11 发布

阅读量956

点赞数 1

分类专栏： Shell编程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41476978/article/details/85018971

版权

本文通过Shell命令演示如何从大型网站的访问记录中分析并提取出每日访问次数最多的前10个IP。首先，利用cut命令获取IP和用户ID字段，接着排序并使用uniq统计IP的访问次数，最后通过-nr选项倒序排列，得出高访问量的IP。

摘要由CSDN通过智能技术生成

问题概述

一个大型网站每天都有数以亿计的访问者,每个访问者的访问行为都会在服务器中都会留下访问记录。
访问记录里有许多信息，其中包含两个字段:访问者的IP、访问者的用户id.例如，格式是这样的:

>>> cat record. txt
10:20  202.114.112.5 32123453
10:21  213.89.113.21 34234234

每条记录分为3个字段，第一个字段是用户的访问时间，第二个字段是用户的访问IP,第3个字段是用户的id,中间以空格隔开。
这样的记录有什么用呢?工程师每天晚上都会分析这些用户数据:
(1)分析哪些IP的访问异常，例如出现短时间内大量访问的情况(可能是用机器人爬网页的结果):
(2)分析哪些用户为活跃用户:
(3)分析哪些用户的账户存在异常( 例如瞬间换另一个IP登录)。

那么，如何判断用户的IP访问短时间内出现大量请求呢?因为个连接请求一条记录，所以可以取出每天IP访问次数最高的前100名，对这些用户进行分析。

取出记录的ip和id字段

在这里我模拟了一个类似网站访问记录的文件record.txt
在这里插入图片描述

cut命令可以取出格式化文本中需要的字段，这里需要取出其中的ip和id字段，时间字段先行

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。