CombineTextInputFormat遇到的坑

最新推荐文章于 2022-06-14 09:41:52 发布

大盘鸡加面

最新推荐文章于 2022-06-14 09:41:52 发布

阅读量832

点赞数

分类专栏：大数据 Linux 文章标签： Hadoop CombineTextInputFormat 小文件问题 MapReduce 输入源丢失

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41601567/article/details/121008716

版权

Linux 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

Hadoop CombineTextInputFormat遇到的坑

背景

combineTextInputFormat是Hadoop的一个切片机制，默认情况下，使用TextInputformat，TextInputformat按文件数切分，即使文件很小，这样会产生大量的小文件，产生大量的maptask。导致处理效率低下。而combineTextInputFormat可以将多个小文件从逻辑上规划到一个切片中。

遇到的坑

当多输入时使用combineTextInputFormat，会导致多输入合并为一个maptask，即不能区分输入来源。
如：输入为：100个1/a.txt 100个2/b.txt 100个3/c.txt 100个4/d.txt
使用combineTextInputFormat参数之后，map_input_file全变为1.txt。

大盘鸡加面

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CombineTextInputFormat遇到的坑

#Hadoop CombineTextInputFormat遇到的坑###背景combineTextInputFormat是Hadoop的一个切片机制，默认情况下，使用TextInputformat，TextInputformat按文件数切分，即使文件很小，这样会产生大量的小文件，产生大量的maptask。导致处理效率低下。而combineTextInputFormat可以将多个小文件从逻辑上规划到一个切片中。###遇到的坑当多输入时使用combineTextInputFormat，会导致多输入合并
复制链接

扫一扫

专栏目录

大盘鸡加面 CSDN认证博客专家 CSDN认证企业博客

码龄7年

17: 原创

116万+: 周排名

7万+: 总排名

1万+: 访问

: 等级

232: 积分

306: 粉丝

49: 获赞

8: 评论

102: 收藏

私信

关注

热门文章

分类专栏

AI 1篇
django 2篇
前后端开发 3篇
nlp 1篇
大数据 1篇
Linux 2篇
网页URL特征 2篇

最新评论

IDEA使用Git工具
CSDN-Ada助手: Java 技能树或许可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
springboot-结合前端实现网页跳转
大盘鸡加面: 什么错的
springboot-结合前端实现网页跳转
CSDN-Ada助手: 恭喜您写完了第14篇博客！标题“springboot-结合前端实现网页跳转”听起来非常有趣。很高兴看到您在持续探索和分享技术的过程中取得了进展。希望您能继续保持这样的创作热情和努力，为读者带来更多有价值的内容。在下一步的创作中，或许您可以考虑深入探讨一些与前端实现网页跳转相关的技术细节，例如如何处理不同的跳转场景、如何优化用户体验等等。同时，也可以尝试与其他技术进行结合，创造出更多有趣的应用场景和示例。但无论如何，记得保持谦虚的态度，不断学习和研究，与读者分享您的心得和经验。期待您未来更多博客的发布！
Django的static路径配置
CSDN-Ada助手: 恭喜您写了第12篇博客！标题为“Django的static路径配置”，看起来很有深度和实用性。您对Django的理解和分享给读者的知识令人钦佩。希望您能继续保持创作的势头，为大家带来更多有关Django的有趣话题。如果可以的话，下一步您可以考虑探讨Django的模板语言或者数据库配置等主题，这些也是广大读者期待了解的内容。谢谢您的分享，期待您的下一篇博客！
剑指 Offer 62. 圆圈中最后剩下的数字---Python
CSDN-Ada助手: 恭喜作者完成了第13篇博客！博客标题看起来非常有挑战性，我对你的持续创作精神感到非常佩服。关于下一步的创作建议，我想提议你可以考虑分享一些实际应用场景，或者对于解题思路的更深入分析。谦虚地说，我相信你的经验和见解将会给读者带来更多的启发和帮助。期待你的下一篇博客！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。