Spark-RDD
长胖的wo一定特美
一步一个脚印
展开
-
弹性分布式数据集RDD(代码实现)
统计用户对每个学科的各个模块访问的次数,取top3 RDD(textFile) -> RDD(map) -> RDD(reduceByKey) -> RDD(groupBy) -> RDD(sortBy).reverse.taskimport java.net.URLimport org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf原创 2017-10-28 12:15:47 · 442 阅读 · 0 评论 -
弹性分布式数据集RDD(概念)
RDD概述: RDD(Resilient DistributedDataset)叫做分布式数据集 是Spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可并行计算的集合 RDD具有数据流模型的特点:自动容错;位置感知性调度和可伸缩性. RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度RDD的属性: 1.一组分片(Par原创 2017-10-28 10:35:28 · 624 阅读 · 0 评论