注意,以下操作都是针对非分桶表
map数量
- 算法
- MapTask的个数=输入文件总大小/分片尺寸,个人理解就是输出的文件数量
- 原因:系统对输入的源文件依照Block的尺寸分片,并在执行Job时安排一个Map Task处理一个Block的
- 或者由mapred.map.task数量决定,但是如果这个参数不合理的话,会失效
- 小文件不分片
- 压缩文件无法被切分
- MapTask的个数=输入文件总大小/分片尺寸,个人理解就是输出的文件数量
- 优化建议
- 优化原因
- map数量过少则导致并发度减小,job过长;若大量作业,则会堵塞
- 优化原因

本文探讨了Hive中MapTask和ReduceTask的数量选择优化,包括MapTask的数量由输入文件大小和分片尺寸决定,以及如何通过合并小文件、调整参数来优化。同时介绍了ReduceTask的数量对性能的影响,以及如何根据数据量和集群资源手动调整reduce任务数,以提高Hive查询效率。
最低0.47元/天 解锁文章
977

被折叠的 条评论
为什么被折叠?



