sparkstreaming的reduceByKey(）算子和updateStateByKey() 的区别

最新推荐文章于 2022-02-15 22:18:56 发布

shining0903lxy

最新推荐文章于 2022-02-15 22:18:56 发布

阅读量802

点赞数

分类专栏： spark 文章标签： sparkstreaming的reduceByKey(）算子和upd

本文链接：https://blog.csdn.net/weixin_43548518/article/details/103487227

版权

reduceByKey(）：只计算当前Duration时间内的聚合

updateStateByKey() ：计算从streamingContext 启动开始到当前批次的聚合，当前批次之前的数据保存在内存+checkPoint 设置目录中，不设置checkPoint 会报错

如果Duration > 10s ，每隔Duration时间做一次checkPoint
如果Duration <　10s ，每隔１０ｓ时间做一次checkPoint，防止频繁访问checkPoint 目录

以下是reduceByKey updateStateByKey 使用代码

   object SparkStreamingTest {
   def main(args: Array[String]): Unit = {

    //receiver模式下接受数据，local的模拟线程必须大于等于2，一个线程用来receiver用来接受数据，另一个线程用来执行job。
    val conf = new SparkConf().setMaster("local[*]").setAppName("SparkStreamingTest")

    //设置日志级别为ERROR 
    val sc = new SparkContext(conf)
    sc.setLogLevel("ERROR")

    //在创建streaminContext的时候 设置batch Interval
    val ssc: StreamingContext = new StreamingContext(sc, Seconds(5))
    
    //创建DStream
    val dstream1: ReceiverInputDStream[String] = ssc.socketTe

最低0.47元/天解锁文章

shining0903lxy

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
sparkstreaming的reduceByKey(）算子和updateStateByKey() 的区别

reduceByKey(）：只计算当前Duration时间内的聚合updateStateByKey() ：计算从streamingContext 启动开始到当前批次的聚合，当前批次之前的数据保存在内存+checkPoint 设置目录中，不设置checkPoint 会报错如果Duration > 10s ，每隔Duration时间做一次checkPoint如果Duration &...
复制链接

扫一扫