Spark函数讲解：collectAsMap

最新推荐文章于 2024-04-19 10:37:19 发布

漂浮的鱼~

最新推荐文章于 2024-04-19 10:37:19 发布

阅读量4.3k

点赞数

分类专栏： spark+scala 文章标签： spark 函数讲解 collectAsMap

spark+scala 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

/**
 * User: 过往记忆
 * Date: 15-03-16
 * Time: 上午09:24
 * bolg: http://www.iteblog.com
 * 本文地址：http://www.iteblog.com/archives/1289
 * 过往记忆博客，专注于hadoop、hive、spark、shark、flume的技术博客，大量的干货
 * 过往记忆博客微信公共帐号：iteblog_hadoop
 */
scala> val data = sc.parallelize(List((1, "www"), (1, "iteblog"), (1, "com"), 
　　　　(2, "bbs"), (2, "iteblog"), (2, "com"), (3, "good")))
data: org.apache.spark.rdd.RDD[(Int, String)] =
　　　　ParallelCollectionRDD[26] at parallelize at <console>:12
 
scala> data.collectAsMap
res28: scala.collection.Map[Int,String] = Map(2 -> com, 1 -> com, 3 -> good)

从结果我们可以看出，如果RDD中同一个Key中存在多个Value，那么后面的Value将会把前面的Value覆盖，最终得到的结果就是Key唯一，而且对应一个Value。

本文转载自：http://www.iteblog.com/archives/1289

优惠劵

漂浮的鱼~

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Spark函数讲解：collectAsMap

/** * User: 过往记忆 * Date: 15-03-16 * Time: 上午09:24 * bolg: http://www.iteblog.com * 本文地址：http://www.iteblog.com/archives/1289 * 过往记忆博客，专注于hadoop、hive、spark、shark、flume的技术博客，大量的干货 * 过往记忆博客微信公共帐号：
复制链接

扫一扫