Hive笔记四之MR任务

最新推荐文章于 2024-08-01 08:58:44 发布

臭小优

最新推荐文章于 2024-08-01 08:58:44 发布

阅读量6.5k

点赞数

分类专栏： Hive 文章标签： hive MapReduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ty4315/article/details/54315770

版权

本文主要探讨了Hive中MapReduce任务的执行情况。在Hive中，小文件会被优化合并成一个Map任务以提高效率。Reduce数量由`hive.exec.reducers.bytes.per.reducer`和`hive.exec.reducers.max`参数决定，可以根据业务需求调整。虽然Hive默认不支持并行执行，但通过修改配置文件，可以开启并行执行模式并设置最大并行任务数。

摘要由CSDN通过智能技术生成

在hive中除全表扫锚外，hive中的HQL语句全部转化为MR任务

调用Driver中的run方法开始执行编译，解析，分析(通过元数据)生成hive.jar交给hadoop执行，添加task线程启动线程，最后通过Runtime类在jvm中执行并返回结果。

Map数量

在hadoop中通过Input和blocksize来决定MR任务的数量，例如有3个小文件在hadoop中就会生成3个Map任务但是在hive中就对其进行了优化只需要一个Map任务就可以。Hive通过combineHiveInputFormat类将这些小文件合并用以提高效率。

t3有3个小文件而我在hive中执行查询时可以看到最终它只生成了一个Map任务

Reduce数量

Hive将hql转化为MR任务，在日志中可以看到有两个参数分别是hive.exec.reducers.bytes.per.reducer

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。