如何应对SparkSQL DataFrame保存到hdfs时出现的过多小文件问题

最新推荐文章于 2023-04-11 20:54:02 发布

sysmedia

最新推荐文章于 2023-04-11 20:54:02 发布

阅读量3.5k

点赞数

分类专栏： spark 文章标签： spark

spark 专栏收录该内容

38 篇文章 1 订阅

订阅专栏

原因就不解释了，总之是因为多线程并行往hdfs写造成的（因为每个DataFrame/RDD分成若干个Partition，这些partition可以被并行处理）。

其结果就是一个存下来的文件，其实是hdfs中一个目录，在这个目录下才是众多partition对应的文件，最坏的情况是出现好多size为0的文件。

如果确实想避免小文件，可以在save之前把DaraFrame的partition设为0： (当然，这必然影响程序效率)

1. 如果是Spark 1.3.x, 可以调用函数如下：

【DataFrame2】=【DataFrame1】.repartition(1)；

【DataFrame2】.save(path);

2. 如果是Spark 1.4.0, 可以调用如下函数：

【DataFrame2】=【DataFrame1】.coalecse(1, false)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
如何应对SparkSQL DataFrame保存到hdfs时出现的过多小文件问题

原因就不解释了，总之是因为多线程并行往hdfs写造成的（因为每个DataFrame/RDD分成若干个Partition，这些partition可以被并行处理）。其结果就是一个存下来的文件，其实是hdfs中一个目录，在这个目录下才是众多partition对应的文件，最坏的情况是出现好多size为0的文件。如果确实想避免小文件，可以在save之前把DaraFrame的partition设为0：
复制链接

扫一扫

专栏目录

sysmedia CSDN认证博客专家 CSDN认证企业博客

码龄21年

24: 原创

18万+: 周排名

150万+: 总排名

32万+: 访问

: 等级

3407: 积分

70: 粉丝

40: 获赞

29: 评论

202: 收藏

私信

关注

热门文章

分类专栏

hadoop 4篇
hdfs
hive 10篇
java 25篇
算法 17篇
网络 7篇
shell 2篇
面试 2篇
自动化测试 3篇
SQL 4篇
Spring 1篇
Security 2篇
leetcode 5篇
oracle 2篇
spark 38篇
centos
微信 1篇
php
scala 4篇
推荐系统 9篇
bitmap 2篇
opencv 1篇

最新评论

基于Spark实时计算商品关注度
小熊保安194: 博主可否将部分图片展示出来呀，我对于spark了解不是很深，我想操作出这个实验，实验过程中很多图片都看不见了
用户体验优化事半功倍：如何绘制客户行为轨迹图
琪琪小丫头: 为什么图片看不到
用户体验优化事半功倍：如何绘制客户行为轨迹图
Deep Learning小舟: 感谢大佬分享，很详细。
微信公众号开发-初学者-SAE新浪云申请及自定义菜单
全村最可爱的崽: 报错了呀！
spark saveAsTextFile
梦在NASA: 在使用spark读取上一个rdd实用saveAsTextFile写的文件时，没有问题并且读取的part文件也没有null文件（出了SUCCESS文件），在map过滤后再saveAsTextFile到另外一个目录时，有null的part-0000文件生成，请问如何过滤掉这种文件，谢谢！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。