![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 81
Scapel
这个作者很懒,什么都没留下…
展开
-
Spark基础知识
Spark为什么比Hadoop快?1、Spark基于内存 Spark默认情况下将处理过程中的数据保存在内存中,而Hadoop的计算结果每次都保存到磁盘,增加了I/O读写的时间。这也导致在迭代计算时Spark速度愈发快于Hadoop。2、Spark基于DAG Spark的执行任务事先已经通过DAG规划,任务管理更加精细化。3、移动计算而非移动数据 RDD的partit...转载 2018-11-07 22:24:42 · 497 阅读 · 0 评论 -
Spark中foreachRDD、foreachPartition和foreach解读
foreachRDD、foreachPartition和foreach的不同之处主要在于它们的作用范围不同,foreachRDD作用于DStream中每一个时间间隔的RDD,foreachPartition作用于每一个时间间隔的RDD中的每一个partition,foreach作用于每一个时间间隔的RDD中的每一个元素。 在Spark 官网中,foreachRDD被划分到Output Op...原创 2018-11-13 18:00:02 · 23295 阅读 · 9 评论 -
集群未知网络问题
提交了一个SparkStreaming程序,经常出现如下的错误:ERROR TransportResponseHandler: Still have 5 requests outstanding when connection from hadoop006/172.33.2.6:55862 is closedWARN YarnSchedulerBackend$YarnSchedulerE...原创 2018-12-03 15:44:44 · 2651 阅读 · 1 评论