- 博客(3)
- 资源 (6)
- 收藏
- 关注
转载 Spark RDD上的map operators是如何pipeline起来的
问题 :作用在一个RDD/DataFrame上的连续的多个map是在对数据的一次循环遍历中完成的还是需要多次循环?回答:不需要多次循环,spark会将多个map操作pipeline起来apply到rdd partition的每个data element上。我们从DAGScheduler的submitStage方法开始,分析一下map operators(包括map, filter, flatM...
2019-03-28 21:25:05 215
原创 spark 广播变量的设计和实现
spark 官网上对 广播变量的描述Broadcast variables allow the programmer to keep a read-only variable cached on each machinerather than shipping a copy of it with tasks. They can be used, for example, to give ev...
2019-03-28 21:18:59 2743
原创 sparksql执行流程分析
Spark sql是spark内部最核心,也是社区最活跃的组件。Spark SQL支持在Spark中执行SQL,或者HiveQL的关系查询表达式。列式存储的类RDD(DataSet/DataFrame)数据类型以及对sql语句的支持使它更容易上手,同时,它对数据的抽取、清洗的特性,使它广泛的用于etl,甚至是机器学习领域。因此,saprk sql较其他spark组件,获得了更多的使用者。...
2019-03-28 21:12:17 3259
ActiveMQ 之Spring结合实例
2018-01-24
SSM 框架整合 仿QQ空间
2016-07-03
SSH 整合 仿QQ空间
2016-07-03
SSM框架仿QQ空间
2016-07-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人