一.HIVE调优的多样性

白日梦想东

已于 2023-01-15 23:33:06 修改

阅读量205

点赞数

分类专栏：大数据 # HIVE性能调优实战文章标签： hive 大数据

于 2023-01-15 22:55:57 首次发布

本文链接：https://blog.csdn.net/weixin_42282445/article/details/128698910

版权

大数据同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

HIVE性能调优实战

5 篇文章 0 订阅

订阅专栏

1.改写SQL对性能的影响

改写SQL来优化程序性能是编程人员进行调优的常见手段
这里用一个union的案例来感受 SQL对性能的影响

`create table if not exists default.student_tb_txt(
s_no string comment '学号',
s_name string comment '姓名',
s_birth string comment '生日',
s_age bigint comment '年龄',
s_sex string comment '性别',
s_score bigint comment '综合能力得分',
s_desc string comment '自我介绍'
)
row format delimited
fields terminated by '\t'
location '/mnt/data/bigdata/hive/warehouse/student_tb_txt/';`

`--创建一张新的统计表
create table student_stat(a bigint, b bigint) partitioned by (tp string) STORED AS TEXTFILE;  
--开启动态分区
set hive.exec.dynamic.partition=true;  
set hive.exec.dynamic.partition.mode=nonstrict;  
--找出各个年龄段最早和最晚出生的信息，并将这两部分信息使用union进行合并写入  
student_stat中  
insert into table student_stat partition(tp)  
select s_age,max(s_birth) stat,'max' tp 
from student_tb_txt 
group by s_age 
union all 
select s_age,min(s_birth) stat, 'min' tp 
from student_tb_txt 
group by s_age;`

通过以上SQL分析流程
会发现有一处冗余的地方：step1和step2都是对 student_tb_txt进行计算，但在计算时要查询两次表，这一步其实是冗余的。
如果student_tb_txt是一个基数特别大的表，从表中取数（读取磁盘中的数据）的时间将变得很长，也浪费了集群宝贵的I/O资源。可以将其进行优化，变成只需读取一次表。

优化方式：

通过上述方式实现MULTI-TABLEINSERT写法，整个优化的过程都集中在对磁盘I/O和网络I/O的优化上，在硬件资源保持不变的情况下，随着数据量的增加，整个集群的磁盘和网络压力会更大。其节省的时间会更加明显。
总结：每启动一个job，就说明集群多执行了一次MapReduce作业，
MapReduce作业越多则代表数据就要经历更多次的磁盘读写和网络通信。随着数据量增多，磁盘和网络的负载会越来越大，
耗在每个MapReduce过程的时间延迟也会越来越长。SQL并行执行并不会节省作业耗用的CPU和磁盘资源，只是节省了用户等待的时间。
另外，当作业足够大或者集群资源不够的情况下，SQL并不会并行运行。

2.调整数据块大小对性能的影响

拓展：desc formmated table可以来查看表的基本信息。
Map读取大文件时的网络传输： ---->大部分Map读取文件时需要跨网络传输

单个文件只被本地Map读取的情况：-----> 只有本地读写
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mR4Y0NOC-1673794347186)(img_3.png)]

3.数据格式对性能的提升

不同的存储方式对数据组织和程序逻辑的运行也会产生不一样的效果。
Hive提供了多种数据存储组织格式，不同格式对程序的运行效率也会有极大的影响，
Hive提供的格式有TEXT、SequenceFile、 RCFile、ORC和Parquet等。
SequenceFile是一个二进制key/value对结构的平面文件，在早期的Hadoop平台上被广泛用于MapReduce输出/输出格式，以及作为数据存储格式。
Parquet是一种列式数据存储格式，可以兼容多种计算引擎，如MapRedcue和Spark等，对多层嵌套的数据结构提供了良好的性能支持，是目前Hive生产环境中数据存储的主流选择之一。
ORC（Optimized Row Columnar）优化是对RCFile的一种优化，它提供了一种高效的方式来存储Hive数据，同时也能够提高Hive的读取、写入和处理数据的性能，能够兼容多种计算引擎。事实上，在实际的生产环境中，ORC已经成为了Hive在数据存储上的主流选择之一。
相同查询语句的性能对比：

4.不同的表设计对性能的影响

通过分区和分桶的方式来提升HiveSQL的性能.

4.1 Hive分区：

Hive表其实时对于分布式数据存储系统中的某个目录，而分区就是原来的目录下创建一个二级子目录，如果有多个分区，则会创建相应数量的多级子目录。

4.2 Hive分桶:

每一个表（table）或者分区，Hive可以进一步组织成桶。也就是说，桶是更为细粒度的数据范围划分。分桶的原理是对分桶列取Hash值（Hive中使用hash函数），再用该Hash值模桶数（Hive中使用pmod函数），用Hive的函数可以表达为pmod（hash分桶列，桶数）。分桶不会改变原有表/分区目录的组织方式，只是更改了数据在文件中的分布。

表的设计对于HiveSQL的性能也有一定的影响，但这里的实验只能说明有影响，并不能说明分区分桶表的性能一定比只分桶的表的性能差，因为基于不同业务和上层的计算逻辑，表现出来的性能差异也会不同。

5.调优方式总结

随着Hive和大数据组件的版本迭代，许多新的特性也会不断衍生，
例如Hive 2.0出现的LLAP，Hadoop 3.0可以支持对GPU资源的使用，这必然导致Hive出现的问题是多样且复杂的，也决定了Hive的调优是一门综合性的课程。
改写SQL、调整数据块大小、调整数据存储格式及对表的设计进行更改等多个角度来演示调优手段的多样性。从这里也佐证了Hive调优需要考虑多个方面的综合性因素。