![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark streaming
爱喝水的绿萝
这个作者很懒,什么都没留下…
展开
-
Spark Streaming(四)——输出
输出操作如下:1)print():在运行流程序的驱动结点上打印 DStream 中每一批次数据的最开始 10 个元素。这用于开发和调试。2)saveAsTextFiles(prefix, [suffix]):以 text 文件形式存储这个 DStream 的内容。每一批次的存储文件名基于参数中的 prefix 和 suffix。”prefix-Time_IN_MS[.suffix]”。3)saveAsObjectFiles(prefix, [suffix]):以 Java 对象序列化的方原创 2022-01-07 13:09:21 · 1606 阅读 · 0 评论 -
Spark Streaming(三)——转换
1、有状态转换1.UpdateStateByKeyupdateStateByKey 操作使得我们可以在用新信息进行更新时保持任意的状态。为使用这个功能,你需要做下面两步: 定义状态,状态可以是一个任意的数据类型。 定义状态更新函数,用此函数阐明如何使用之前的状态和来自输入流的新值对状态进行更新。 使用 updateStateByKey 需要对检查点目录进行配置,会使用检查点来保存状态。2.编写代码package com.zch.spark.streamingimp原创 2022-01-07 13:08:22 · 518 阅读 · 0 评论 -
Spark Streaming(二)—— 创建DStream
1、文件数据源案例需求:读取hdfs上的Herry.txt文件,进行词频统计package com.zch.spark.streamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * Author: zhaoHui * Date: 2022/01/06 * Time: 14:29 * Description: */ob原创 2022-01-07 13:05:34 · 472 阅读 · 0 评论 -
Spark Streaming(一)——入门
1、概叙1.Spark Streaming是什么Spark Streaming用于流式数据处理,是准实时的数据处理可以允许秒级别的延迟。2.特点易用 容错 易整合到spark体系3.架构2、DStream入门1、WordCount实操案例1.需求:使用 netcat 工具向 9999 端口不断的发送数据,通过 SparkStreaming 读取端口数据并统计不同单词出现的次数2.添加依赖<dependency> <...原创 2022-01-07 13:02:26 · 531 阅读 · 0 评论 -
Spark Streaming(五)——window
1、Window 窗口的范围应该是采集周期的整数倍窗口是可以滑动的,但是默认情况下,一个采集是按照周期滑动的这样的话,可能造成出现重复数据的计算,为了避免这种情况可以改变滑动的幅度(步长)关于窗口的两个参数 窗口的时长 滑动的步长窗口的时长:计算内容的时间范围滑动的步长:隔多久触发一次计算package com.zch.spark.streamingimport org.apache.spark.S...原创 2022-01-07 13:12:19 · 290 阅读 · 0 评论