spark
文章平均质量分 79
陈伟chenwei
这个作者很懒,什么都没留下…
展开
-
spark中的RDD持久化
rdd的全称为Resilient Distributed Datasets(弹性分布式数据集)rdd的操作有两种transfrom和action。transfrom并不引发真正的rdd计算,action才会引发真正的rdd计算。rdd的持久化是便于rdd计算的重复使用。官方的api说明如下:persist(storageLevel=StorageLevel(False,原创 2017-08-30 01:08:04 · 1629 阅读 · 1 评论 -
spark广播变量和累加器
共享变量通常情况下,当向Spark操作(如map,reduce)传递一个函数时,它会在一个远程集群节点上执行,它会使用函数中所有变量的副本。这些变量被复制到所有的机器上,远程机器上并没有被更新的变量会向驱动程序回传。在任务之间使用通用的,支持读写的共享变量是低效的。尽管如此,Spark提供了两种有限类型的共享变量,广播变量和累加器。广播变量广播变量允许程序员将一原创 2017-10-22 19:59:18 · 421 阅读 · 0 评论