Spark的两大共享变量:累加器 和 广播变量
累加器(accumulator):用来对信息进行聚合,常见用途是在调试时对作业执行过程中的事件进行计数
广播变量(broadcast variable):用来高效分发较大的对象,可以让程序高效地向所有工作节点发送一个较大地只读值,以供一个或多个Spark使用
数值RDD的操作
Spark的数值操作是通过流式算法实现的,允许以每次一个元素的方式构建出模型。
Spark的两大共享变量:累加器 和 广播变量
累加器(accumulator):用来对信息进行聚合,常见用途是在调试时对作业执行过程中的事件进行计数
广播变量(broadcast variable):用来高效分发较大的对象,可以让程序高效地向所有工作节点发送一个较大地只读值,以供一个或多个Spark使用
数值RDD的操作
Spark的数值操作是通过流式算法实现的,允许以每次一个元素的方式构建出模型。