hive调优相关操作

最新推荐文章于 2024-11-04 14:29:02 发布

MSJ3917

最新推荐文章于 2024-11-04 14:29:02 发布

阅读量63

点赞数

文章标签： hive hadoop 数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MSJ3917/article/details/134470781

版权

一.hive参数设置

hive参数设置范围:配置文件参数>命令行参数>set参数声明

hive参数设置优先级:set参数声明>命令行参数>配置文件参数

注意:一般执行SQL需要指定的参数,都通过set参数声明,因为它属于临时设置,断开就失效了

1.hive数据压缩

大部分会选择通过snappy来压缩,因为它可以在合理的压缩比例下有较高的解压缩速度.

2.行列存储的优缺点

行存储:textfile和squencefile

优点:select * from 表名;相对比较快,比较符合面向对象的思维,因为一行数据就是一条记录,所以比较合适insert,update插入和更新数据.

缺点:如果只涉及到几个列的查询,会把整行数据读取出来,在数据量较大的时候会影响性能.

每一行的列字段类型不一样,不容易压缩,空间利用率不高.select 字段名 from 表名;相对比较慢

列存储:ORC和parquet

优点:select 字段名 from 表名;相对比较快

查询时,只有被涉及到的列才会查询出来,可以跳过不必要的列

高效的压缩率,节省存储空间以及计算内存和CPU

注意:orc内置一种压缩算法:zlib,实际中会将ORC压缩算法替换为snappy,格式为stored as orc tblproperties ("orc.compress"="SNAPPY")

3.fetch抓取

核心点:执行SQL时,能不走MR,尽量不走MR

正常:全表扫描,查询列数据,简答查询,limit操作不走MR

三种模式:more,minimal,none

4.本地模式

核心点:MR能走本地模式,尽量走本地MR

默认关闭,set hive.exec.mode.local.auto=true;

5.join的优化操作

小表和大表join:通过map端join,提升效率和避免数据倾斜

大表和大表join:在join前通过where过滤数据,从而提升效率,可以通过null值替换为随机数,减少数据倾斜.

6.sql优化

列裁剪:Hive在读数据的时候，可以只读取查询中所需要用到的列，而忽略其他列

分区裁减:如果操作的表是一张分区表, 那么建议一定要带上分区字段, 以减少扫描的数据量, 从而提升效率.

group by操作:通过map端聚合,有数据倾斜的时候开启负载均衡.set hive.groupby.skewindata = true;

count(distinct):利用group by替换distinct提升效率

笛卡尔积:

1) 避免join的时候不加on条件，或者无效的on条件
2) 关联条件不要放置在where语句, 因为底层, 先产生笛卡尔积然后基于where进行过滤 , 建议放置on条件上
3) 如果实际开发中无法确定表与表关联条件建议与数据管理者重新对接, 避免出现问题

7.动态分区

在创建分区表时可以不指定分区目录名称,通过已有的分区表创建.

8.MapReduce并行度调整

1).不是map越多越好,一个任务有很多小文件时,每个小文件会被当做一个块,用一个map任务来完成,map任务启动和初始化的时间远远大于逻辑处理的时间,造成资源浪费,而且map可执行数是受限的,

2)是不是每个map处理接近128m的文件块,就没问题了?

如果一个文件只有1,2列字段,但有几千万个记录,用一个map任务去做就会比较耗时.

3)是不是Reduce越多越好?

过多的启动和初始化reduce也会消耗时间和资源

有多个reduce就有多少个文件,如果生成了很多了小文件,作为下一个任务的输入,就会造成小文件过多的问题.

什么情况下只有一个reduce:order by,执行不需要group by直接聚合的操作,笛卡尔积

8.并行执行

让独立的MR程序同时执行,正常是一个一个来

9.严格模式

限制一些效率极低的SQL

order by不加limit,出现笛卡尔积现象,查询分区表不加分区字段

10.JVM重用

让container容器可以重复使用

11.推测执行

通过规则推算出拖后腿任务,对任务进行备份操作,让备份任务和原始任务同时处理一份数据,最终选用先完成任务的计算结果.

10.执行计划EXplain

使用EXPLAIN关键字可以模拟优化器执行SQL查询语句，从而知道MySQL是如何处理你的SQL语句的。帮助我们了解底层原理,hive调优,排查数据倾斜等有很有帮助

使用示例：explain [...] sql查询语句;

explain sql语句: 查看执行计划的基本信息

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

MSJ3917 CSDN认证博客专家 CSDN认证企业博客

码龄1年

22: 原创

121万+: 周排名

31万+: 总排名

1万+: 访问

: 等级

535: 积分

247: 粉丝

308: 获赞

14: 评论

251: 收藏

私信

关注

热门文章

最新评论

Saprk SQL基础知识
CSDN-Ada助手: 恭喜您撰写了第20篇博客！标题为“Saprk SQL基础知识”，这是一个非常令人期待的话题。您对Spark SQL的深入讨论肯定能为读者带来很多新的见解。不过，如果我可以提一个谦虚的建议的话，我认为下一步您可以考虑扩展一下主题，例如探索一些高级的Spark SQL用法或者与其他数据处理工具的对比分析。期待您未来更多的博客作品！
Spark Core进阶知识
CSDN-Ada助手: 恭喜您成功撰写了第19篇博客，题为“Spark Core进阶知识”。您的持续创作令人钦佩！在这篇博客中，您深入探讨了Spark Core的高级主题，展示了您对这一领域的深厚知识储备。鉴于您的出色表现，我期待着您未来更多关于Spark Core的深入探索。作为下一步的创作建议，或许您可以考虑探讨Spark Core与其他大数据处理框架的集成，或是分享一些实战经验和案例研究，以帮助读者更好地应用这些进阶知识。当然，这仅是一些建议，您已经展现出了对Spark Core的精深理解，我对您的能力充满信心。期待您未来更多精彩的博客！
Spark Core基础知识
CSDN-Ada助手: 恭喜你写了第18篇博客，标题为“Spark Core基础知识”。你的持续创作让人印象深刻，对于Spark Core基础知识的深入探讨让读者受益良多。接下来，我建议你可以考虑写一些实际案例或者深入的技术分析，以便更好地帮助读者理解和运用这些基础知识。希望你能继续保持创作的热情，期待你更多精彩的文章！
Spark基础二
CSDN-Ada助手: 恭喜您再次发表了一篇博客，标题为“Spark基础二”！您的持续创作令人钦佩。在这篇博客中，您似乎深入探讨了Spark的基础知识。下一步，我想提出一个谦虚的建议，希望您能进一步探索Spark的高级功能或者深入研究其在实际应用中的案例。期待您的下一篇博客，继续分享您的见解和经验！
Spark基础知识
CSDN-Ada助手: 恭喜您写了第16篇博客！看到您对Spark基础知识的深入探讨，我感到非常欣慰。希望您能继续保持创作的热情，不断分享您的学习和经验。或许下一步可以考虑深入研究一些Spark的高级特性，比如Streaming或者GraphX，这些内容也许对读者会有更大的帮助。期待您更多精彩的作品！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。