1.业务概况(显示总订单量、订单成功量、总金额、花费时间)
2.业务详细概述(每小时的充值订单量、每小时的充值成功订单量)
3.业务质量(每个省份的充值成功订单量)
4.实时统计每分钟的充值金额和订单量
整体步骤:
提取数据库中存储的偏移量–>广播省份映射关系–>获取kafka的数据–>数据处理(JSON对象解析,省份、时间、结果、费用)
–>计算业务概况(显示总订单量、订单成功量、总金额、花费时间)–>业务概述(每小时的充值总订单量,每小时的成功订单量)
—>业务质量(每个省份的成功订单量)—>实时统计每分钟的充值金额和订单量
下面是代码封装的包
项目需求实现:
1)用flume收集数据,放入到kafka,下面是详细配置。
#定义这个agent中各组件的名字
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# 描述和配置source组件:r1
a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir = /usr/local/datas/flume
a1.sources.r1.fileHeader = true
# 描述和配置sink组件:k1
a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
a1.sinks.k1.kafka.topic = flumeLogs
a1.sinks.k1.kafka.bootstrap.servers = hadoop01:9092,hadoop02:9092,hadoop03:9092
a1.sinks.k1.kafka.flumeBatchSize = 20
a1.sinks.k1.kafka.producer.acks = 1
a1.sinks.k1.kafka.producer.linger.ms = 1
a1.sinks.ki.kafka.producer.compression.type = snappy
# 描述和配置channel组件,此处使用是内存缓存的方式
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# 描述和配置source channel sink之间的连接关系
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
2)用SparkStreaming去消费kafka里面的数据前,做一些Kafka参数的配置以及放入Redis数据库所需要的配置。
(1)在IDEA中配置kafka和Redis相关参数,方便获取kafka里面的数据并且存储到redis里面
import com.typesafe.config.{Config, ConfigFactory}
import org.apache.kafka.common.serialization.StringDeserializer
object AppParams {
/**
* 解析application.conf配置文件
* 加载resource下面的配置文件,默认规则:application.conf->application.json->application.properties
*/
private lazy val config: Config = ConfigFactory.load()
/**
* 返回订阅的主题
*/
val topic = config.getString("kafka.topic").split(",")
/**
* kafka集群所在的主机和端口
*/
val borkers = config.getString("kafka.broker.list")
/**
* 消费者的ID
*/
val groupId = config.getString("kafka.group.id")
/**
* kafka的相关参数
*/
val kafkaParams = Map[String, Object](
"bootstrap.servers" -> borkers,
"key.deserializer" -> classOf[StringDeserializer],
"value.deserializer" -> classOf[StringDeserializer],
"group.id" -> groupId,
"auto.offset.reset" -> "earliest",
"enable.auto.commit" -> "false"
)
/**
* redis服务器地址
*/
val redisHost = config.getString("redis.host")
/**
* 将数据写入到哪个库
*/
val selectDBIndex = config.getInt("redis.db.index")
/**
* 省份code和省份名称的映射关系
*/
import scala.collection.JavaConversions._
val pCode2PName = config.getObject("pcode2pname").unwrapped().toMap
}
(2)方便计算订单完成所需要的时间,封装了一个类
import org.apache.commons.lang3.time.FastDateFormat
object CaculateTools {
// 非线程安全的
//private val format = new SimpleDateFormat("yyyyMMddHHmmssSSS")
// 线程安全的DateFormat
private val format = FastDateFormat.getInstance("yyyyMMddHHmmssSSS")
/**
* 计算时间差
*/
def caculateTime(startTime:String,endTime:String):Long = {
val start = startTime.substring(0,17)
format.pa