zip和zippartition总结

最新推荐文章于 2020-07-28 21:05:34 发布

weixin_30399871

最新推荐文章于 2020-07-28 21:05:34 发布

阅读量216

点赞数

文章标签：人工智能大数据

原文链接：http://www.cnblogs.com/whu-zeng/p/5147693.html

版权

最近在搞spark机器学习项目时，碰到了一些小问题。两个数据集要联到一起。比如rdd1=("abc","cde","dfc"),rdd2=(1,2,3)要连接成

rdd3=(("abc",1),("cde",2),("dfc",3)),当然，小数据集的时候用zip就可以了。大数据集的时候就有问题了。每个partiton的数据条数不一致。报错。

尝试着用别的方法解决问题。把他们全部map成1->“abc"这种类型

如i=0;

rdd1.map(line=>

i=i+1;

(i.toString,line)

)

然后再把他们做连接。这下该好了吧。reduce一看，傻眼了。spark它是分布式的。每台机器一个1，机器一的i 从1-20000，机器2的i也是从1-20000.这样就用很多id重复了。

得再想个办法。

zip不是报错嘛，zippatition怎么样？

发现也不太好使。

最后，把rdd1.repartition(1),rdd2.repatition(1).rdd1.zip(rdd2).

问题解决。就是把两个rdd全部重新分区，分到一个区里。

不过这个还是数据集不是很大。如果很大的话，分不到一个区里。就会有问题了。

还是要多琢磨。

转载于:https://www.cnblogs.com/whu-zeng/p/5147693.html

weixin_30399871

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
zip和zippartition总结

最近在搞spark机器学习项目时，碰到了一些小问题。两个数据集要联到一起。比如rdd1=("abc","cde","dfc"),rdd2=(1,2,3)要连接成rdd3=(("abc",1),("cde",2),("dfc",3)),当然，小数据集的时候用zip就可以了。大数据集的时候就有问题了。每个partiton的数据条数不一致。报错。尝试着用别的方法解决问题。把他们全部map成1-&...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。