Spark saveAsTextFile

最新推荐文章于 2022-11-25 13:52:49 发布

power0405hf

最新推荐文章于 2022-11-25 13:52:49 发布

阅读量1.5w

点赞数 1

分类专栏： spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/power0405hf/article/details/50596233

版权

Spark程序在默认情况下将结果数据分散保存为多个part文件。为了整合成单个文件，可以使用coalesce(1)或repartition(1)，但大数据量时应避免shuffle操作。已生成的多个part文件可通过getmerge工具合并。参考' Strange behavior of ‘saveAsTextFile’ method '。

摘要由CSDN通过智能技术生成

当我运行完一个Spark程序想把结果保存为saveAsTextFile，
结果使用hadoop fs -ls la /qy/151231.txt后发现里面有一系列的part，好几千个。
原因：
运行Spark的时候把数据分成了很多份（partition），每个partition都把自己的数据保存在partxxx文件夹。
如果想保存为一份的话，就要：
先collect
或者

data.coalesce(1,true).saveAsTextFile()

You can also use repartition(1), which is just a wrapper for coalesce() with the suffle argument set to true.
但是如果你的数据很多，还是不要这样做了。

如果已经存了很多个part：
可以把大文件夹getmerge：

hadoop fs -getmerge /output/dir/on</

最低0.47元/天解锁文章

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。