Spark
xuguokun1986
这个作者很懒,什么都没留下…
展开
-
Spark容错机制
引入 一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。 面向大规模数据分析,数据检查点操作成本很高,需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同时还需要消耗更多的存储资源。 因此,Spark选择记录更新的方式。但是,如果更新粒度太细太多,那么记录更新成本也不低。因此,RDD只支持粗粒度转换,即只记录单个块上执行的单个操作,转载 2015-12-17 08:41:49 · 394 阅读 · 0 评论 -
如何完美的解释reducebyKey
down votfavorit I am new to spark and scala. I was confused about the way reuceByKey function works in spark. Suppose we hava the following code: val lines = sc.textFile("dat转载 2017-07-03 20:42:07 · 645 阅读 · 0 评论 -
PageRank算法原理及Spark实现(scala)& Spark数据分区
一、PageRank的概念 PageRank,网页排名, 是一种由根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一, 它由Larry Page 和 Sergey Brin在20世纪90年代后期发明,并以拉里·佩吉(Larry Page)之姓来命名。 PageRank是Google专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。Pa转载 2017-07-04 08:12:15 · 4164 阅读 · 0 评论