spark数据源小文件问题如何解决

qzWsong

已于 2023-03-13 11:06:41 修改

阅读量367

点赞数

分类专栏： spark 文章标签： spark Powered by 金山文档

于 2023-03-10 19:22:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/java_creatMylief/article/details/129450541

版权

spark 专栏收录该内容

27 篇文章 0 订阅

订阅专栏

spark读取hdfs文件时，会将一个分片作为一个分区，使用一个task进行调度，如果文件不足128M，也会作为一个分区

当小文件很多的时候，如果用默认的InputFormat效率会很低，此时我们可以采用CombineFileInputFormat，它会首先合并小文件，然后再交给task进行调度。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark数据源小文件问题如何解决

当小文件很多的时候，如果用默认的InputFormat效率会很低，此时我们可以采用CombineFileInputFormat，它会首先合并小文件，然后再交给task进行调度。spark读取hdfs文件时，会将一个分片作为一个分区，使用一个task进行调度，如果文件不足128M，也会作为一个分区。
复制链接

扫一扫

专栏目录

qzWsong CSDN认证博客专家 CSDN认证企业博客

码龄7年

180: 原创

3万+: 周排名

1万+: 总排名

14万+: 访问

: 等级

2456: 积分

163: 粉丝

162: 获赞

30: 评论

326: 收藏

私信

关注

热门文章

分类专栏

最新评论

doris docker部署和本地化部署 1.2.4.1版本
lemoba: docker logs be为啥显示注册失败 start check be register status~ 2024-06-13T11:41:22+00:00 [Note] [Entrypoint]: register is failed, wait next~ 2024-06-13T11:41:42+00:00 [Warn] [Entrypoint]: start check be register status~ 2024-06-13T11:41:42+00:00 [Note] [Entrypoint]: register is failed, wait next~ 2024-06-13T11:42:02+00:00 [Warn] [Entrypoint]: start check be register status~ 2024-06-13T11:42:02+00:00 [Note] [Entrypoint]: register is failed, wait next~ 但是mysql show PROC 显示正常的
FlinkSql，如何开窗，如何进行窗口内计算
weixin_45903974: 1.12版本支持这个吗
访问https网站，edge浏览器，thisisunsafe不生效
qzWsong: F12 控制台/console
访问https网站，edge浏览器，thisisunsafe不生效
温果果: 打开哪里的控制台呢
java Poi操作Excel,插入行,保留行格式
qinfinger: 这个writter意义不明，我删掉了也能运行成功。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。