SparkStreaming
文章平均质量分 92
叫我阿柒啊
从事大数据、java、python。
展开
-
Spark:从0实现30s内实时监控指标计算
说起Spark,大家就会自然而然地想到Flink,而且会不自觉地将这两种主流的大数据实时处理技术进行比较。然后最终得出结论:Flink实时性大于Spark。的确,Flink中的数据计算是以事件为驱动的,所以来一条数据就会触发一次计算,而Spark基于数据集RDD计算,RDD最小生成间隔就是50毫秒,所以Spark就被定义为亚实时计算。本篇文章主要是利用Spark的滑动窗口,做了一个计算平均响应时长的应用场景,以Kafka作为数据源、通过滑动窗口和reduceByKey算子得以实现。原创 2024-06-19 17:33:51 · 886 阅读 · 0 评论 -
自学Spark,又是Hello World?
在18年初刚开始接触学习spark的时候,买了一本《Spark大数据处理技术》的书,虽然后来一些Spark开发的知识都是从官网和实践中得来的,但是这本书对我来说是启蒙和领路的作用。还记得这本书编程的开篇就是Spark程序”Hello World“!果然,这辈子是摆脱不了”Hello World“了。本篇文章主要利用wordcount的小案例,带大家认识了一下Spark,内容比较浅显,后续会更加深入,期待与大家共同学习。原创 2024-03-05 11:08:06 · 916 阅读 · 0 评论 -
解决方案!SparkStreaming使用mapWithState时,设置timeout()无法生效问题,解决方案和原因过程分析!
前言当我在测试SparkStreaming的状态操作mapWithState算子时,当我们设置timeout(3s)的时候,3s过后数据还是不会过期,不对此key进行操作,等到30s左右才会清除过期的数据。百度了很久,关于timeout的资料很少,更没有解决这个问题的文章,所以说,百度也不是万能的,有时候还是需要靠自己。所以我就在周末研究了一下,然后将结果整理了出来,希望能帮助大家更全面的理解Spark状态计算。mapWithState按理说Spark Streaming实时处理,数据就像流水,原创 2021-04-12 22:50:03 · 950 阅读 · 0 评论