spark处理日志文件

最新推荐文章于 2023-09-13 16:04:19 发布

wrenching

最新推荐文章于 2023-09-13 16:04:19 发布

阅读量881

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/f951205/article/details/103298656

版权

本文介绍如何利用Spark处理Apache的access.log文件，以满足业务需求，包括统计每日页面访问量、HTTP状态码分布、独立IP访问量以及各页面访问次数。通过启动Spark并编写Scala代码实现日志分析。

摘要由CSDN通过智能技术生成

假设给我们提供一份apache的access.log文件，根据业务需求，我们需要分析得到以下几方面的需求：

1.统计每天的页面访问量

2.统计每种不同的HTTP状态对应的访问数

3.统计不同独立IP的访问量

4.统计不同页面的访问量
access.log文件下载地址

Apache 日志内容从左到右依次包括如下内容：
远程IP地址
客户端记录
浏览者记录
请求的时间，包括日期，时间，时区
服务器收到的请求，包括请求方法（GET/POST），请求的目标链接地址，HTTP版本号
请求状态代码，表示请求是否成功
发送的字节数
发出请求时所在的URL
客户端的详细信息，操作系统及浏览器等

1.首先在虚拟机启动spark
2.在启动spark-shell ./spark-shell --master spark://hdp-2:7077 --executor-memory 500m --total-executor-cores 1
scala代码


```java
package spark1128

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object sparkcount {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local&#

最低0.47元/天解锁文章

wrenching

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
spark处理日志文件

假设给我们提供一份apache的access.log文件，根据业务需求，我们需要分析得到以下几方面的需求：1.统计每天的页面访问量2.统计每种不同的HTTP状态对应的访问数3.统计不同独立IP的访问量4.统计不同页面的访问量...
复制链接

扫一扫