大数据开发-Spark-RDD实操案例-http日志分析

最新推荐文章于 2023-01-30 23:27:13 发布

Hoult-吴邪

最新推荐文章于 2023-01-30 23:27:13 发布

阅读量1k

点赞数 3

本文链接：https://blog.csdn.net/hu_lichao/article/details/113477900

版权

本文通过具体的Spark案例，演示了如何处理配置文件、进行日志分析，包括HTTP日志中IP地址的转换和统计，CDN日志的独立IP数、视频访问统计以及小时流量分析，还涉及广告曝光次数的计算，最后讲解了使用Spark SQL进行日期区间转换的操作。案例详细，适合大数据开发学习者参考。

摘要由CSDN通过智能技术生成

1.在生产环境下，如何处理配置文件 && 表的数据处理

配置文件，或者配置表，一般是放在在线db，比如mysql等关系型数据库，或者后台rd直接丢给你一份文件，数据量比起整个离线数据仓库的大表来说算很小，所以这种情况下，一般的做法是将小表，或者小文件广播出去，那么下面一个例子来看，广播表的使用解决ip地址映射问题

数据地址：链接：https://pan.baidu.com/s/1FmFxSrPIynO3udernLU0yQ提取码：hell

2.日志分析案例1

2.1 数据说明

http.log：

用户访问网站所产生的日志。日志格式为：时间戳、IP地址、访问网址、访问数据、浏览器信息等，样例如下：

file

ip.dat：ip段数据，记录着一些ip段范围对应的位置，总量大概在11万条，数据量也算很小的，样例如下

file

文件位置：data/http.log、data/ip.dat

链接：https://pan.baidu.com/s/1FmFxSrPIynO3udernLU0yQ提取码：hell

要求：将 http.log 文件中的 ip 转换为地址。如将 122.228.96.111 转为温州，并统计各城市的总访问量

2.2.实现思路和代码如下

有三个关键点，http.log的关键信息是ip地址，所以根据数据的精简原则，只读取ip即可，另外ip映射比对的时候，ip地址映射文件是排序的，所以为了提高查找效率，采用将ip地址转为long类型，然后再用二分法来查找，找到地址后映射为地址。

package com.hoult.work

import org.apache.spark.broadcast.Broadcast
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SparkSession

/**
 * 数据源：1.ip地址的访问日志 2.ip地址映射表
 * 需要把映射表广播，地址转换为long类型进行比较
 */
object FindIp {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder()
      .master("local[*]")
      .appName(this.getClass.getCanonicalName)
      .getOrCreate()
    val sc = spark.sparkContext

    import spark.implicits._
    val ipLogsRDD = sc.textFile("data/http.log")
      .map(_.split("\\|")(1))


    val ipInfoRDD = sc.textFile("data/ip.dat").map {
      case line: String => {
        val strSplit: Array[String] = line.split("\\|")
        Ip(strSplit(0), strSplit(1), strSplit(7))
      }
    }


    val brIPInfo = sc.broadcast(ipInfoRDD.map(x => (ip2Long(x.startIp), ip2Long(x.endIp), x.address))collect())

    //关联后的结果rdd
    ipLogsRDD
      .map(x => {
        val index  = binarySearch(brIPInfo.value, ip2Long(x))
        if (index != -1 )
          brIP