Spark-Streaming
Knight_AL
这个作者很懒,什么都没留下…
展开
-
Spark Streaming项目实战(2) | 最近 1 小时广告点击量实时统计
统计各广告最近 1 小时内的点击量趋势:各广告最近 1 小时内各分钟的点击量 分析怎么实现 统计各广告最近1个小时内的点击量趋势:各广告最近1个小时内分钟的点击量,每6秒统计一次 1.各广告 -> 按照广告分钟 2.最近1个小时,每6秒统计一次 -> 窗口:窗口长度1个小时 窗口的滑动步长5s ------------- 1.先把窗口分好 2.按照广告分组,进行聚合 3.按照广告分组,把这个广告下所有的分钟记录在一起 代码实现原创 2020-09-11 20:16:31 · 855 阅读 · 0 评论 -
Spark Streaming项目实战(1) | 每天每地区热门广告 Top3
目录一.准备数据1.数据生成方式2.数据生成模块3.从 Kafka 读取数据1创建util项目创建app项目4.从 Kafka 读取数据2创建bean项目二.需求实现每天每地区热门广告 Top3实现 一.准备数据 1.数据生成方式 使用代码的方式持续的生成数据, 然后写入到 kafka 中. 然后Structured Streaming 负责从 kafka 消费数据, 并对数据根据需求进行分析. 2.数据生成模块 模拟出来的数据格式: 时间戳,地区,城市,用户 id,广告 id 1566035129449,原创 2020-09-10 19:51:26 · 1129 阅读 · 1 评论 -
Spark Streaming快速入门系列(4) | 无状态和有状态操作
目录一.无状态转换操作二.有状态转换操作updateStateByKey 一.无状态转换操作 官网 http://spark.apache.org/docs/2.1.1/streaming-programming-guide.html#transformations-on-dstreams transform 原语允许 DStream上执行任意的RDD-to-RDD函数。 可以用来执行一些 RDD 操作, 即使这些操作并没有在 SparkStreaming 中暴露出来. 该函数每一批次调度一次。其原创 2020-09-06 14:52:39 · 426 阅读 · 0 评论 -
Spark Streaming快速入门系列(5) | foreachRDD输出
1原创 2020-09-09 20:47:58 · 335 阅读 · 0 评论 -
Spark Streaming快速入门系列(3) | Kafka 数据源
目录一.Kafka选型二.kafka和streaming理论指导三.从kafka消费数据1三.从kafka消费数据2 一.Kafka选型 http://spark.apache.org/docs/2.1.1/streaming-programming-guide.html http://spark.apache.org/docs/2.1.1/streaming-kafka-integration.html 二.kafka和streaming理论指导 http://spark.apache.org/doc原创 2020-09-05 19:58:04 · 412 阅读 · 0 评论 -
Spark Streaming快速入门系列(2) | RDD队列+自定义数据源
目录一.RDD队列二.自定义数据源 一.RDD队列 1.用法及说明 测试过程中,可以通过使用ssc.queueStream(queueOfRDDs)来创建DStream,每一个推送到这个队列中的RDD,都会作为一个DStream处理。 2.案例实操 需求:循环创建几个 RDD,将 RDD 放入队列。通过 Spark Streaming创建 Dstream,计算 WordCount 3.代码实现 import org.apache.spark.SparkConf import org.apache原创 2020-09-05 14:09:24 · 420 阅读 · 0 评论 -
Spark Streaming快速入门系列(2) | wordcount案例
目录wordcount 案例wordcount 案例解析 wordcount 案例 1.需求 使用 netcat 工具向 9999 端口不断的发送数据,通过 Spark Streaming 读取端口数据并统计不同单词出现的次数 2.添加依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId&g原创 2020-09-03 21:48:34 · 191 阅读 · 0 评论 -
Spark Streaming快速入门系列(1) | Spark Streaming概述
目录一.Spark Streaming是什么二.Spark Streaming特点三.SparkStreaming 架构 一.Spark Streaming是什么 Spark Streaming 是 Spark 核心 API 的扩展, 用于构建弹性, 高吞吐量, 容错的在线数据流的流式处理程序. 总之一句话: Spark Streaming 用于流式数据的处理 数据可以来源于多种数据源: Kafka, Flume, Kinesis, 或者 TCP 套接字. 接收到的数据可以使用 Spark 的负责元语原创 2020-09-03 21:28:56 · 157 阅读 · 0 评论