静静网站流量分析项目之实时分析sparkstreaming_8

最新推荐文章于 2020-08-04 09:02:51 发布

静静七分醉

最新推荐文章于 2020-08-04 09:02:51 发布

阅读量468

点赞数

分类专栏：静静网站流量分析项目文章标签：实时分析 spark kafka flum mysql

本文链接：https://blog.csdn.net/m0_37657725/article/details/92798494

版权

静静网站流量分析项目专栏收录该内容

11 篇文章 7 订阅 ¥9.90 ¥99.00

订阅专栏

该博客介绍了如何使用Spark Streaming从Kafka消费数据，进行清洗和处理，计算PV、UV、VV等8个指标，并将结果存储到MySQL。文章详细讲解了代码逻辑，包括数据源、数据清洗、指标计算以及存储过程。

摘要由CSDN通过智能技术生成

简单回顾在上一篇介绍了如何将Flume的sink数据实时导入kafka。

本篇将主要介绍sparkstreaming消费kafka数据，将消费到的数据“kafkaStream”在spark清洗数据，得到清洗后的数据“clearStream”，处理数据（基于清洗后的数据算出8个指标）得到结果数据resultStream。最后将结果数据存储在mysql中。

Spark的数据来源有两种，第一种是基本来源，直接由StreamingContext对象提供方法。第二种是由扩展包提供的API，需要导入扩展包才可以使用，例如从Kafka、flume消费数据都是采用这种方式。

以下是具体代码实现：

package com.lj

import java.util.Calendar
import java.util.Random
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.streaming.Seconds
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.kafka.KafkaUtils
import cn.tedu.utils.HbaseUtil

了解本专栏