spark杂谈
tianlan996
这个作者很懒,什么都没留下…
展开
-
spark经典入门程序--wordcount分析
1. val lines = sc.textFile(../hdfs/...txt) lines类型是MapPartitionsRDD。 这一步实际上会生成两个RDD,除了MapPartitionsRDD类型的lines,还会事先生成一个HadoopRDD。 2. val words = lines.flatMap(line=>line.split(" ")) words类型是Map...原创 2019-03-10 10:23:50 · 245 阅读 · 0 评论 -
RDD特点介绍
弹性分布式数据集。 * Internally, each RDD is characterized by five main properties: * * - A list of partitions * - A function for computing each split * - A list of dependencies on other RDDs * - O...原创 2019-03-10 21:36:26 · 506 阅读 · 0 评论