spark
文章平均质量分 89
InnerPeace_
这个作者很懒,什么都没留下…
展开
-
Spark的Shuffle过程介绍
Shuffle Writer Spark丰富了任务类型,有些任务之间数据流转不需要通过Shuffle,但是有些任务之间还是需要通过Shuffle来传递数据,比如wide dependency的group by key。 Spark中需要Shuffle输出的Map任务会为每个Reduce创建对应的bucket,Map产生的结果会根据设置的partitioner得到对应的bucketId,然后填充...转载 2018-08-14 15:26:26 · 502 阅读 · 0 评论 -
Spark面试题(一)
一、spark集群运算的模式 Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Standalone 模式,对于大多数情况 Standalone 模式就足够了,如果企业已经有 Yarn 或者 Mesos 环境,也是很方便部署的。 standalone(集群模式):典型的Mat...原创 2018-09-03 22:30:15 · 4250 阅读 · 0 评论 -
Spark面试题(二)
一、spark streaming和storm有何区别? 一个实时毫秒,一个准实时亚秒,不过storm的吞吐率比较低。 二、spark有哪些组件? Master:管理集群和节点,不参与计算。 Worker:计算节点,进程本身不参与计算,和master汇报。 Driver:运行程序的main方法,创建sparkcontext对象。 Spark context:控制整个applica...原创 2018-09-13 22:49:43 · 6270 阅读 · 1 评论