基于Spark实现从服务器日志数据apache.log中获取每个时间段访问量

该博客介绍了如何在Spark环境中利用Scala处理服务器日志数据apache.log,以小时为单位统计每个时间段的访问量。通过提供RDD的groupBy方法实现统计,并给出了部分测试数据和最终的输出结果。
摘要由CSDN通过智能技术生成

要求

在Spark环境中,实现从服务器日志数据apache.log中获取每个时间段访问量
这里以一个小时为时间段,不考虑年份日期

日志数据

资源链接,免费下载
以下是部分数据,供测试:

83.149.9.216 - - 17/05/2015:10:05:03 +0000 GET /presentations/logstash-monitorama-2013/images/kibana-search.png
83.149.9.216 - - 17/05/2015:10:05:43 +0000 GET /presentations/logstash-monitorama-2013/images/kibana-dashboard3.png
83.149.9.216 - - 17/05/2015:10:05:47 +0000 GET /presentations/logstash-monitorama-2013/plugin/highlight/highlight.js
208.115.111.72 - - 17/05/2015:11:05:41 +0000 GET /files/fastsplit/?C=M;O=D
208.115.111.72 - - 17/05/2015:11:05:19 +0000 GET /files/xdotool/docs/man/?C=M;O=D
208.115.111.72 - - 17/05/2015:11:05:16 +0000 GET /scripts/python/wrap/?C=N;O=D
208.115.111.72 - - 17/05/2015:11:05:32 +0000 GET /files/images/?C=S;O=D
208.115.111.72 - - 17/05/2015:11:05:00 +0000 GET /files/blogposts/20080611/
208.115.111.72 - - 17/05/2015:11:05:16 +0000 GET /files/logstash/?C=D;O=D
208.115.111.72 - - 17/05/2015:11:05:53 +0000 GET /presentations/hackday06/
208.115.111.72 - - 17/05/2015:11:05:29 +0000 GET /scripts/grok-py-test/
208.115.111.72 - - 17/05/2015:11:05:08 +0000 GET /?N=A&page=21
144.76.194.187 - - 17/05/2015:13:05:28 +0000 GET /wp-login.php
144.76.194.187 - - 17/05/2015:13:05:37 +0000 GET /administrator/index.php
144.76.194.187 - - 17/05/2015:13:05:11 +0000 GET /reset.css

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值