spark streaming 写hdfs问题

最新推荐文章于 2020-10-26 11:30:07 发布

立喆

最新推荐文章于 2020-10-26 11:30:07 发布

阅读量3.7k

点赞数

分类专栏： spark 文章标签： spark streaming spark 数据

本文链接：https://blog.csdn.net/leone911/article/details/72899014

版权

spark 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

spark streaming 里面在做 foreach 操作时要注意数据与节点与进程「jvm」之间的关系；「这一点往往大家比较容易混淆」

我总结了一下，供大家参考

dstream.foreachRDD { rdd =>
do something.....// 在driver内执行
rdd.foreach { recordsinworker =>
do something // 在worker上执行「作用域是一个node」
}
rdd.foreachPartition{ recordsintask =>
do someting // 在task上执行「作用域是一个进程一个jvm」
}

}

所以如果你的spark streaming code 在 dstream.foreachrdd 里面直接处理业务数据就是把所有的数据都拉到driver端进行处理，

1：dirver的生命周期是伴随程序的，也就是说它会固定在某个节点运行

2: hdfs client 读写优先local

这样就会导致数据在当前节点肯定会有一份，从而导致数据分散不开。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

立喆

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
spark streaming 写hdfs问题

spark streaming 里面在做 foreach 操作时要注意数据与节点与进程「jvm」之间的关系；「这一点往往大家比较容易混淆」我总结了一下，供大家参考dstream.foreachRDD { rdd => do something.....// 在driver内执行 rdd.foreach { recordsinworker =>
复制链接

扫一扫