大数据实战项目------中国移动运营分析实时监控平台 || 项目需求实现（文章最后有数据文件）

最新推荐文章于 2024-07-04 09:26:27 发布

longG_It

最新推荐文章于 2024-07-04 09:26:27 发布

阅读量9.2k

点赞数 14

分类专栏： project

本文链接：https://blog.csdn.net/qq_41166135/article/details/83215329

版权

本文介绍了一个使用Flume收集数据并利用SparkStreaming处理的实时监控平台项目。项目涉及从数据库提取偏移量，广播省份映射，解析Kafka数据，计算业务概况、详细订单量和省份成功率，并实时统计每分钟充值金额与订单量。通过配置Kafka、Redis参数，实现了数据的存储和避免重复。项目代码和日志字段解释也进行了详述。

摘要由CSDN通过智能技术生成

1.业务概况（显示总订单量、订单成功量、总金额、花费时间）
2.业务详细概述（每小时的充值订单量、每小时的充值成功订单量）
3.业务质量（每个省份的充值成功订单量）
4.实时统计每分钟的充值金额和订单量

整体步骤：
提取数据库中存储的偏移量–>广播省份映射关系–>获取kafka的数据–>数据处理（JSON对象解析，省份、时间、结果、费用）
–>计算业务概况（显示总订单量、订单成功量、总金额、花费时间）–>业务概述（每小时的充值总订单量，每小时的成功订单量）
—>业务质量（每个省份的成功订单量）—>实时统计每分钟的充值金额和订单量

下面是代码封装的包
在这里插入图片描述

项目需求实现：
1）用flume收集数据，放入到kafka，下面是详细配置。

#定义这个agent中各组件的名字
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# 描述和配置source组件：r1
a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir = /usr/local/datas/flume
a1.sources.r1.fileHeader = true

# 描述和配置sink组件：k1
a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
a1.sinks.k1.kafka.topic = flumeLogs
a1.sinks.k1.kafka.bootstrap.servers = hadoop01:9092,hadoop02:9092,hadoop03:9092
a1.sinks.k1.kafka.flumeBatchSize = 20
a1.sinks.k1.kafka.producer.acks = 1
a1.sinks.k1.kafka.producer.linger.ms = 1
a1.sinks.ki.kafka.producer.compression.type = snappy


# 描述和配置channel组件，此处使用是内存缓存的方式
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# 描述和配置source  channel   sink之间的连接关系
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

2）用SparkStreaming去消费kafka里面的数据前，做一些Kafka参数的配置以及放入Redis数据库所需要的配置。

（1）在IDEA中配置kafka和Redis相关参数，方便获取kafka里面的数据并且存储到redis里面


import com.typesafe.config.{Config, ConfigFactory}
import org.apache.kafka.common.serialization.StringDeserializer

object AppParams {

  /**
    * 解析application.conf配置文件
    * 加载resource下面的配置文件，默认规则：application.conf->application.json->application.properties
    */
  private lazy val config: Config = ConfigFactory.load()

  /**
    * 返回订阅的主题
    */
  val topic = config.getString("kafka.topic").split(",")

  /**
    * kafka集群所在的主机和端口
    */
  val borkers = config.getString("kafka.broker.list")

  /**
    * 消费者的ID
    */
  val groupId = config.getString("kafka.group.id")

  /**
    * kafka的相关参数
    */
  val kafkaParams = Map[String, Object](
    "bootstrap.servers" -> borkers,
    "key.deserializer" -> classOf[StringDeserializer],
    "value.deserializer" -> classOf[StringDeserializer],
    "group.id" -> groupId,
    "auto.offset.reset" -> "earliest",
    "enable.auto.commit" -> "false"
  )

  /**
    * redis服务器地址
    */
  val redisHost = config.getString("redis.host")

  /**
    * 将数据写入到哪个库
    */
  val selectDBIndex = config.getInt("redis.db.index")
  /**
    * 省份code和省份名称的映射关系
    */
  import scala.collection.JavaConversions._
  val pCode2PName  = config.getObject("pcode2pname").unwrapped().toMap
}

（2）方便计算订单完成所需要的时间，封装了一个类


import org.apache.commons.lang3.time.FastDateFormat


object CaculateTools {
  // 非线程安全的
  //private val format = new SimpleDateFormat("yyyyMMddHHmmssSSS")
  // 线程安全的DateFormat
  private val format = FastDateFormat.getInstance("yyyyMMddHHmmssSSS")
  /**
    * 计算时间差
    */
  def caculateTime(startTime:String,endTime:String):Long = {
    val start = startTime.substring(0,17)
    format.pa