野狼e族 的博客

忙 是一种好事

Spark RDD上的map operators是如何pipeline起来的

问题 :作用在一个RDD/DataFrame上的连续的多个map是在对数据的一次循环遍历中完成的还是需要多次循环? 回答:不需要多次循环,spark会将多个map操作pipeline起来apply到rdd partition的每个data element上。 我们从DAGScheduler的sub...

2019-03-28 21:25:05

阅读数 43

评论数 0

spark 广播变量的设计和实现

spark 官网上对 广播变量的描述 Broadcast variables allow the programmer to keep a read-only variable cached on each machinerather than shipping a copy of it wi...

2019-03-28 21:18:59

阅读数 37

评论数 0

sparksql执行流程分析

Spark sql是spark内部最核心,也是社区最活跃的组件。Spark SQL支持在Spark中执行SQL,或者HiveQL的关系查询表达式。列式存储的类RDD(DataSet/DataFrame)数据类型以及对sql语句的支持使它更容易上手,同时,它对数据的抽取、清洗的特性,使它广泛的用于e...

2019-03-28 21:12:17

阅读数 804

评论数 0

提示
确定要删除当前文章?
取消 删除