hive常用优化

最新推荐文章于 2022-12-02 15:32:21 发布

沐淼

最新推荐文章于 2022-12-02 15:32:21 发布

阅读量312

点赞数

分类专栏：大数据学习文章标签： hive 优化 mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mqf163/article/details/78603431

版权

大数据学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1、join连接时的优化：当三个或多个以上的表进行join操作时，如果每个on使用相同的字段连接时只会产生一个mapreduce。

2、join连接时的优化：当多个表进行查询时，从左到右表的大小顺序应该是从小到大。原因：hive在对每行记录操作时会把其他表先缓存起来，直到扫描最后的表进行计算

3、在where字句中增加分区过滤器。

4、当可以使用left semi join 语法时不要使用inner join，前者效率更高。原因：对于左表中指定的一条记录，一旦在右表中找到立即停止扫描。

5、如果所有表中有一张表足够小，则可置于内存中，这样在和其他表进行连接的时候就能完成匹配，省略掉reduce过程。设置属性即可实现，set hive.auto.covert.join=true; 用户可以配置希望被优化的小表的大小 set hive.mapjoin.smalltable.size=2500000; 如果需要使用这两个配置可置入$HOME/.hiverc文件中。

6、同一种数据的多种处理：从一个数据源产生的多个数据聚合，无需每次聚合都需要重新扫描一次。

例如：insert overwrite table student select *　from employee; insert overwrite table person select * from employee;

可以优化成：from employee insert overwrite table student select * insert overwrite table person select *

7、limit调优：limit语句通常是执行整个语句后返回部分结果。set hive.limit.optimize.enable=true;

8、开启并发执行。某个job任务中可能包含众多的阶段，其中某些阶段没有依赖关系可以并发执行，开启并发执行后job任务可以更快的完成。设置属性：set hive.exec.parallel=true;

9、hive提供的严格模式，禁止3种情况下的查询模式。

a：当表为分区表时，where字句后没有分区字段和限制时，不允许执行。

b：当使用order by语句时，必须使用limit字段，因为order by 只会产生一个reduce任务。

c：限制笛卡尔积的查询。

10、合理的设置map和reduce数量。

11、jvm重用。可在hadoop的mapred-site.xml中设置jvm被重用的次数。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
hive常用优化

1、join连接时的优化：当三个或多个以上的表进行join操作时，如果每个on使用相同的字段连接时只会产生一个mapreduce。2、join连接时的优化：当多个表进行查询时，从左到右表的大小顺序应该是从小到大。原因：hive在对每行记录操作时会把其他表先缓存起来，直到扫描最后的表进行计算3、在where字句中增加分区过滤器。4、当可以使用left semi join 语法
复制链接

扫一扫

专栏目录

沐淼 CSDN认证博客专家 CSDN认证企业博客

码龄8年

85: 原创

8万+: 周排名

189万+: 总排名

19万+: 访问

: 等级

2305: 积分

23: 粉丝

34: 获赞

6: 评论

115: 收藏

私信

关注

热门文章

分类专栏

ORM框架 1篇
mybatis 6篇
JPA 1篇
数据库
PostgreSQL 2篇
oracle 2篇
其它 4篇
Mac 6篇
docker 4篇
docker-compose 1篇
RabbitMQ 2篇
Windows 1篇
java 39篇
js、jQuery、html 19篇
JSP 2篇
redis 9篇
linux 9篇
tomcat 4篇
Nginx 4篇
随笔 2篇
git 2篇
idea 2篇
Shell 7篇
大数据学习 5篇
kafka 1篇
架构设计 2篇
elasticsearch 1篇

最新评论

Mybatis（二）-----settings配置
nrxsh: 但是重复查询一个执行的本来就比较慢的接口时重复3到4次时没有查询结果了，只返回空，还不报错。这是什么原因呢?
mybatis基础demo
weixin_44210816: demo讲解很详细，很适合刚开始学mybatis的同学，十分感谢博主。
如何生成签名文件keystore八步曲
若风华浊世间: 然后这个文件要怎么才能使用?
（读书笔记）mybatis （三）-----environments详解
沐淼回复 m0_37856433: 看看demo http://blog.csdn.net/mqf163/article/details/52511965
（读书笔记）mybatis （三）-----environments详解
m0_37856433: SqlSessionFactory factory = sqlSessionFactoryBuilder.build(reader, environment); SqlSessionFactory factory = sqlSessionFactoryBuilder.build(reader, environment,properties); 兄弟啊builder不是静态方法你怎么通过类直接调用该方法的，编译也通不过啊

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。