![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark-streaming
voidfaceless
这个作者很懒,什么都没留下…
展开
-
spark-streaming越来越慢的bug
spark-streaming越来越慢的bug解决方案:step1:kafka参数配置为不自动提交偏移量:"enable.auto.commit" -> (false: java.lang.Boolean)step2:自己写代码维护偏移量打完收工。后续代码再更新...原创 2019-10-29 10:14:46 · 1148 阅读 · 0 评论 -
spark—map与flatmap的区别之用flatmap代替map.filter/filter.map组合
spark—用flatmap代替map.filter/filter.map组合spark RDD与DStream API支持很多好用的算子,最常用的莫过于map和filter了,顾名思义可知:map: 返回一个新的分布式数据集,其中每个元素都是由源RDD中一个元素经func转换得到的;filter: 返回一个新的数据集,其中包含的元素来自源RDD中元素经func过滤后(func返回true时...原创 2019-10-12 10:37:19 · 1073 阅读 · 0 评论 -
解决redis.clients.jedis.exceptions.JedisDataException: ERR max number of clients reached
Caused by: redis.clients.jedis.exceptions.JedisDataException: ERR max number of clients reachedspark-streaming报错:Caused by: redis.clients.jedis.exceptions.JedisDataException: ERR max number of client...原创 2019-10-22 17:10:29 · 5937 阅读 · 0 评论 -
Spark未知问题—updateStateByKey的checkpoint引发的一系列问题
Spark未知问题—updateStateByKey的checkpoint引发的一系列问题楼主在应用spark-streaming时候,用到了updateStateByKey这个算子。updateStateByKey需要事先指定一个checkpoint地址,用于存储Metadata checkpointing和Data checkpointing。但是我在执行的时候,发现checkpoint文...原创 2019-10-14 20:10:54 · 424 阅读 · 0 评论 -
DStream.foreachRDD,window,batch的理解
DStream.foreachRDD,window,batch的理解Spark Streaming是用于处理流式数据的库。换句话说,流数据会依照一定的时间间隔分为批次,这个时间间隔叫做batch interval,每个批的数据都会处理转换为RDD,这些连续的RDD组成DStream。那么window又是啥?DStream怎么处理这些RDD呢。举一个简单的例子,假设batch interval...原创 2019-09-27 18:50:30 · 218 阅读 · 0 评论