Hive笔记四之MR任务

本文主要探讨了Hive中MapReduce任务的执行情况。在Hive中,小文件会被优化合并成一个Map任务以提高效率。Reduce数量由`hive.exec.reducers.bytes.per.reducer`和`hive.exec.reducers.max`参数决定,可以根据业务需求调整。虽然Hive默认不支持并行执行,但通过修改配置文件,可以开启并行执行模式并设置最大并行任务数。
摘要由CSDN通过智能技术生成

        在hive中除全表扫锚外,hive中的HQL语句全部转化为MR任务

        调用Driver中的run方法开始执行编译,解析,分析(通过元数据)生成hive.jar交给hadoop执行,添加task线程启动线程,最后通过Runtime类在jvm中执行并返回结果。

Map数量

       在hadoop中通过Input和blocksize来决定MR任务的数量,例如有3个小文件在hadoop中就会生成3个Map任务但是在hive中就对其进行了优化只需要一个Map任务就可以。Hive通过combineHiveInputFormat类将这些小文件合并用以提高效率。

      t3有3个小文件而我在hive中执行查询时可以看到最终它只生成了一个Map任务




Reduce数量

    Hive将hql转化为MR任务,在日志中可以看到有两个参数分别是hive.exec.reducers.bytes.per.reducer

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值