1. 概述
当浏览器请求服务器时,如果在服务器上设置了访问日志,就会记录下用户的访问记录。在日志里,通常包含大量的信息,但是这些信息不太容易被利用,这里我们通过对Apache的access.log日志进行分析,来进一步的学习Spark下的程序开发。
2. 假定需求
假设给我们提供一份apache的access.log文件,根据业务需求,我们需要分析得到以下几方面的需求:
1.统计每天的页面访问量
2.统计每种不同的HTTP状态对应的访问数
3.统计不同独立IP的访问量
4.统计不同页面的访问量
3. 准备工作
3.1 日志文件下载
下载指定分析的日志,当然也可以使用自己真实的Apache日志,在tomcat的logs目录中,为了让分析结果更加的直观明显,还是推荐使用下载日志。
Apache access.log日志下载地址:http://labfile.oss.ali