Hive性能调优详解系列之hive建表设计层面调优_数仓工程师必备hive调优方案

一.调优概述

Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几 乎从不是数据量过大,而是数据倾斜、数据冗余、Job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含Hive的建表设计方面,对HiveHQL语句本身的优化,也包含Hive配置参数和底层引擎MapReduce方面的调整。
所地这次调优主要分为以下四个方面展开:
1、 Hive的建表设计层面
2、 HQL语法和运行参数层面
3、 Hive架构层面
4、 Hive数据倾斜
总之,Hive调优的作用:在保证业务结果不变的前提下,降低资源的使用量,减少任务的执行时间。

二.调优须知

  • 对于大数据计算引擎来说:数据量大不是问题,数据倾斜是个问题。
  • Hive的复杂HQL底层会转换成多个MapReduce Job并行或者串行执行,Job数比较多的作业运行效率相对比较低,比如即使只有几百行数据的表,如果多次关联多次汇总,产生十几个Job,耗时很长。 原因MapReduce作业初始化的时间是比较长的。
  • 在进行Hive大数据分析时,常见的聚合操作比如sum, count, max, min,
    UDAF等,不怕数据倾斜问题,MapReduce在Mappe阶段的预聚合操作,使数据倾斜不成问题。
  • 好的建表设计,模型设计事半功倍。
  • 设置合理的MapReduce的Task并行度,能有效剧性能。(比如,10w数据量级计算,用100个reduceTask,那是相当的浪费,1个足够,但是如果是亿级的数据量,那么1个Task又会很少,至少保证1个tast处理10w+即可)
  • 数据量较大的情况下,慎用count(distinct), group by容易产生倾斜问题。
  • 对小文件进行合并,是行之有效的提高调度效率的方法,假如所有的作业设置合理的文件数,对任 务的整体调度效率也会产生积极的正向影响
  • 优化时把握整体,单个作业最优不如整体最优。

3.调优具体细节

3.1. Hive建表设计层面

Hive的建表设计层面调优,主要以建表的类型, 文件存储格式,压缩格式等多方面进行参考。
1.利用分区表优化

分区表是在某一个或者几个维度上对瞄进行分类存储,一个分区对应一个目录。如果筛选条件里有分区字段,那么Hive只需要遍历对应分区目录下的文件即可,不需要遍历全局数据,使得处理的数据量 大大减少,从而提高新旬效率。

也就是说:当一个Hive表的查询大多数情况下,会根据某一个字段逬行筛选时,那么非常适合创建为 分区表,该字段即为分区字段。

seiectl:	seiect	....	where	country	=	"china"
seiect2:	seiect	....	where	country	=	"chinaH
seiect3:	seiect	....	where	country	=	"china"
select4:	seiect	....	where	country	=	"china"

分门别类:这个city字段的每个值,就单独形成为一个分区。其实每个分区就对应带HDFS的一个目录 在创建表时通过启用partitioned by实现,用来partition的维度并不是实际数据的某一列,具体分 区的标志是由插入内容时给定的。

当要查询某一分区的内容时可以采用where语句,形似where tablename. partition_column = a 来实现。

1.创建含分区的表:

create TABLE page_vi ew(vi ewTime INT, useri d BIGINT,
page_url string, referrer_url string,
ip string comment * ip Address of the user*)
PARTITIONED BY(date string, country STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '1'
STORED AS TEXTFILE;

2.载入内容,并指定分区标志:

load data local inpath '/home/bigdata/pv_2018-07-08_us.txt' into table page_view partition(date='2018-07-08*, country='US');

3.查询指定标志的分区内容:

select page_vi ews.* from page_vi ews
WHERE page_vi ews.date >= '2008-03-01'
AND page_vi ews.date <= '2008-03-31'
AND page_vi ews.refe r re r_u rl like '%xyz.com';

简单总结:

1.当你意识到一个字段经常用来where,建分区表,使用这个字段当做分区字段
2.在查询的时候,使用分区字段来过滤,就可以避免全表扫描。只需要扫描这张表的一个分区的数据即可

2.利用分桶表优化
分区与分桶有哪些区别,如下:

分区:按照字段值来进行:一个分区,就只是包含这个这一个值的所有记录不是当前分区的数据一定不在当前分区当前分区也只会包含当前这个分区值的数据。
分桶:默认规则:Hash散列 一个分桶中会有多个不同的值,如果一个分桶中,包含了某个值,这个值的所有记录,必然都在这个分桶。

目前分桶具有两大场景作用,如下。

1.采样
2.join

如下代码显示就是以userid作为分桶bucket,共设置32个buckets

create table page_view(vi ewTime INT, userid bigint, page_url string, referrer_url string, ip string comment 'IP Address of the user*)
comment 'This 1s the page view table*
PARTITIONED BY(dt STRING, country STRING)
CLUSTERED BY(userid) SORTED BY(viewTime) INTO 32 BUCKETS
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '1' COLLECTION ITEMS TERMINATED BY * 2 * MAP KEYS TERMINATED BY '3'
STORED AS SEQUENCEFILE;

分桶的语法:

CLUSTERED BY(USerid) SORTED BY(viewTlme) INTO 32 BUCKETS

clustered BY(userid) 表示按照 userid 来分桶 SORTED BY(vi ewTi me) 按照vi ewti
me来进行桶内排序 INTO 32 BUCKETS 分成多少个桶

两个表以相同方式(相同字段)划分桶,两个表的桶个数是倍数关系

create table order(cid int,price float) clustered by(ci d) into 32 buckets;
create table customer(id int,fi rst string) clustered by(id) into 32 buckets; select pri ce from order t join customer s on t.cid = s.id

通常情况下,Sampling在全体数据进行采样,这样效率自然就低,它要去访问所有数据。而如果一 个表已经对某一列制作了 bucket,就可以采样所有桶中指定序号的某个桶,这就减少了访问量。
总结三种采样

分桶抽样: select * from student tablesample(bucket 3 out of 32);
随机釆样:rand()函数 select * from student order by rand() limit 100;//效率低
select * from student distribute by rand() sort by rand() 1imit100; // 推荐 用这种
数据块抽样:tablesample()函数
select * from student tablesample(10 percent) ; # 百分上十
select * from student tabl esample(5 rows) ; # 行数
select * from student tablesample(5 M) ; # 大小

3.选择合适的文件存储格式
在HiveSQL的create table语句中,可以使用stored as …指定表的存储格式。
Apache Hive 支持Apache Hadoop中使用的几种熟悉的文件格式,比如TextFile、SequenceFile、RCFile、 Avro、ORC、ParquetFile等。
存储格式一般需要根据业务进行参考,在我们的实操中,绝大多数表都采用TextFile与Parquet两种存储 格式之一。TextFile是最简单的存储格式,它是纯文本记录,也是Hive的默认格式。虽然它的磁盘开销 比较大,查询效率也低,但它更多地是作为跳板来使用。RCFile、ORC、Parquet等格式的表都不能由 文件直接导入数据,必须由TextFile来做中转。Parquet和ORC都是Apache旗下的开源列式存储格式。 列式存储比起传统的行式存储更适合批量OLAP查询,并且也支持更好的压缩和编码。
创建表时,特别是宽表,尽量使用ORC、ParquetFile这些列式存储格式,因为列式存储的表,每一 列的数据在物理上是存储在一起的,Hive查询时会只遍历需要列数据,大大减少处理的数据量。
第一种:TextFile

1.存储方式:行存储。默认格式,如果建表时不指定默认为此格式。,
2.每一行都是一条记录,每行都以换行符”\n”结尾。数据不做压缩时,磁盘会开销比较大,数据解析开销也比较大。
3.可结合Gzip、Bzip2等压缩方式一起使用(系统会自动检查,查询时会自动解压),推荐选用可切分的压缩算法。

第二种:Sequence File

1.一种Hadoop API提供的二进制文件,使用方便、可分割、个压缩的特点。
2.支持三种压缩选择:NONE、RECORD’ BLOCK: RECORD压缩率低,一般建议使用BLOCK压缩。

第三种:RC File

1.存储方式:数据按行分块,每块按照列存储。 首先,将数据按行分块,保证同一个record在一个块上,避免读一个记录需要读取多个block。 其次,块数据列式存储,有利于数据压缩和快速的列存取。
2.相对来说,RCFile对于提升任务执行性能提升不大,但是能节省一些存储空间。可以使用升级版的ORC格式。

第四种:ORC File

1.存储方式:数据按行分块,每块按照列存储
2.Hive提供的新格式,属于RCFile的升级版,性能有大幅度提升,而且数据可以压缩存储,压缩快,快速 列存取。
3.ORC File会基于列创建索引,当查询的时候会很快。

第五种:Parquet File

1.存储方式:列式存储。
2.Parquet对于大型查询的类型是高效的。对于扫描特定表格中的特定列查询,Parquet特别有用。Parquet一般使用snappy、Gzip压缩。默认snappy:
3.Parquet支持impala查询引擎。
4.表的文件存储格式尽量采用Parquet或ORC,不仅降低存储量,还优化了查询,压缩,表关联等性能。

4.选择合适的压缩格式
Hive语句最终是转化为MapReduce程序来执行的,而MapReduce的性能瓶颈在与网络IO和磁盘 IO,要解决性能最主要的是减少数据量,压缩虽然减少数据量,但是压缩过程要消耗CPU,但是在Hadoop中,往往性能瓶颈不在于CPU, CPU压力并不大,所 以压缩充分利用了比较空闲的CPU。
常用压缩方法对比

压缩格式是否可拆分是否自带压缩率速度是否hadoop自带
gzip很高比较快
lzo比较高很快否,要安装
snappy比较高很快否,要安装
bzip2最高

如何选择压缩方式

1.压缩比率
2.压缩解压速度
3.是否支持split

支持分割的文件可以并行的有多个mapper程序处理大数据文件,大多数文件不支持可分割是因为这些文件只能从头开始读。
是否压缩

1.计算密集型,不压缩,否则进一步增加了CPU的负担
2.网络密集型,推荐压缩,减小网络数据传输

各个压缩方式所对应的Class类
压缩格式 类

zlib org.apache.hadoop.io.compress. Defaultcodec
gzip org.apache.hadoop.io.compress.GzipCodec
bzip2 org.apache.hadoop.io.compress.Bzip2Codec
Izo org.apache.hadoop.io.compress.lzo.LzoCodec
Iz4 org.apache.hadoop.io.compress.LzoCodec
snappy org.apache.hadoop.io.compress.SnappyCodec

压缩使用

Job输出文件按照Block以GZip的方式进行压缩:

默认值是false
set mapreduce.output.fi1 eoutputformat.compress=true;

默认值是Record
set mapreduce.output.fi1 eoutputformat.compress.type=BLOCK

默认值是org.apache.hadoop.io.compress.Defaultcodec
set mapreduce.output.fi1eoutputformat.compress.codec=org.apache.hadoop.io.compress.Gzipcodec

Map输出结果也以Gzip进行压缩:

##启用map端输出
set mapred.map.output.compress=true
默认值是 org. apache. hadoop .io. comp ress. Defaultcodec
set
mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.GzipCodec

对Hive输出结果和中间都进行压缩:

set hive.exec.compress.output=true ## 默认值是false, 不压缩 set
hive.exec.compress.intermediate=true ## 默认值是false,为true时MR设置的压缩才启用

总结

以上对Hive性能调优详解系列之hive建表设计层面调优,语法层面以及架构与数据倾斜会在其余系列篇章更新。
老姜的数据江湖专注大数据数仓、数据治理相关。哔哩号以及微信公众号:老姜的数据江湖。

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值