spark
qq_28001193
这个作者很懒,什么都没留下…
展开
-
spark中算子详解:aggregateByKey
转自:http://blog.csdn.net/jiaotongqu6470/article/details/78457966 通过scala集合以并行化方式创建一个RDD scala> val pairRdd = sc.parallelize(List(("cat",2),(...转载 2018-03-07 11:38:28 · 281 阅读 · 0 评论 -
spark中算子详解:combineByKey
转自:http://blog.csdn.net/jiaotongqu6470/article/details/78458561 combineByKey是spark中更加底层,更加难理解,但却更灵活的一个算子 这个算子需要传入三个函数 第一个函数,是对每个分区的第一个值进行...转载 2018-03-07 11:46:02 · 318 阅读 · 0 评论 -
Broadcast功能
转自:https://www.kancloud.cn/kancloud/spark-internals/45238 顾名思义,broadcast 就是将数据从一个节点发送到其他各个节点上去。这样的场景很多,比如 driver 上有一张表,其他节点上运行的 task 需要 lookup 这张表,那么 driver 可以先把这张表 copy 到这些节点,这样 task 就可以在本地查表了。如何实现一...转载 2018-03-09 11:03:53 · 6000 阅读 · 0 评论 -
Spark中的checkpoint作用与用法
转自:http://blog.csdn.net/qq_20641565/article/details/76223002 checkpoint的意思就是建立检查点,类似于快照,例如在spark计算里面 计算流程DAG特别长,服务器需要将整个DAG计算完成得出结果,但是如果在这很长的计算流程中突然中间算出的数据丢失了,sp...转载 2018-03-13 09:32:57 · 234 阅读 · 0 评论