求每个键平均值的数据流

最新推荐文章于 2021-02-23 07:33:26 发布

月月猴

最新推荐文章于 2021-02-23 07:33:26 发布

阅读量199

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/qq_43380248/article/details/90475935

版权

spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

启动Hadoop和集群
进入spark-1.1.0-bin-hadoop 目录下的 cd ./bin/pyspark
启动spark shell

In [1]: pair={("panda",0),("pink",3),("pirate",3),("panda",1),("pink",4)}
In [2]: pairRDD=sc.parallelize(pair)
In [3]: print"{}".format(pairRDD.collect())

[('panda', 1), ('pink', 3), ('pirate', 3), ('panda', 0), ('pink', 4)]           

In [4]: pairRDD1=pairRDD.mapValues(lambda x :(x,1))

In [5]: pairRDD2=pairRDD1.reduceByKey(lambda x,y:(x[0]+y[0],x[1]+y[1]))

In [6]: pairRDD3=pairRDD2.reduceByKey(lambda x,y:(x[0]/x[1]))

In [7]: print"{}".format(pairRDD3.collect())
[('pink', (7, 2)), ('panda', (1, 2)), ('pirate', (3, 1))]

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

月月猴

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
求每个键平均值的数据流

In [1]: pair={(“panda”,0),(“pink”,3),(“pirate”,3),(“panda”,1),(“pink”,4)}In [4]: pairRDD=sc.parallelize(pair)In [6]: print"{}".format(pairRDD.collect())[(‘panda’, 1), (‘pink’, 3), (‘pirate’, 3), (‘...
复制链接

扫一扫