spark常用小函数

最新推荐文章于 2022-09-17 10:59:07 发布

我不是狼

最新推荐文章于 2022-09-17 10:59:07 发布

阅读量227

点赞数

分类专栏： spark 文章标签： spark groupBy KeyBy

本文链接：https://blog.csdn.net/u012073033/article/details/103423210

版权

spark 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

1、keyBy 为rdd按指定key生成key-value形式

scala> val a = sc.parallelize(List("dog", "salmon", "salmon", "rat", "elephant"), 3)
a: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[123] at parallelize at <console>:21

scala> val b = a.keyBy(_.length)
b: org.apache.spark.rdd.RDD[(Int, String)] = MapPartitionsRDD[124] at keyBy at <console>:23

scala> b.collect
res80: Array[(Int, String)] = Array((3,dog), (6,salmon), (6,salmon), (3,rat), (8,elephant))

2、.groupBy(identity) 对value进行数据分桶形成key-value的结果

参考博客：《http://blog.cheyo.net/180.html》

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

我不是狼

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark常用小函数

1、keyBy 为rdd按指定key生成key-value形式scala> val a = sc.parallelize(List("dog", "salmon", "salmon", "rat", "elephant"), 3)a: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[123] at paralleliz...
复制链接

扫一扫