史诗级hive性能调优--建表与存储格式的选择

最新推荐文章于 2023-07-21 22:22:35 发布

一只考考拉

最新推荐文章于 2023-07-21 22:22:35 发布

阅读量347

点赞数

分类专栏： hive

本文链接：https://blog.csdn.net/weixin_38629422/article/details/110739552

版权

hive 专栏收录该内容

34 篇文章 1 订阅

订阅专栏

Hive 调优的作用：在保证业务结果不变的前提下，降低资源的使用量，减少任务的执行时间。

影响 Hive 效率的几乎从不是数据量过大，而是数据倾斜、数据冗余、 Job 或 I/O 过多、 MapReduce 分配不合理等等。

对 Hive 的调优既包含 Hive 的建表设计方面，对 HiveHQL 语句本身的优化，也包含 Hive 配置参数和底

层引擎 MapReduce 方面的调整。

一、建表优化

利用分区表进行优化

当一个 Hive 表的查询大多数情况下，会根据某一个字段进行筛选时，那么非常适合创建为分区表，该字段即为分区字段。

1 、当你意识到一个字段经常用来做 where ，建分区表，使用这个字段当做分区字段

2 、在查询的时候，使用分区字段来过滤，就可以避免全表扫描。只需要扫描这张表的一个分区的数据即可

创建分区表

CREATE TABLE page_view(viewTime INT, userid BIGINT, page_url STRING, referrer_url STRING, ip STRING COMMENT 'IP Address of the User') PARTITIONED BY(date STRING, country STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '1' STORED AS TEXTFILE;

将数据load进分区表里

load data local inpath '/home/bigdata/pv_2018-07-08_us.txt' into table page_view partition(date='2018-07-08', country='US');

利用分桶表优化

想要提高join效率可以建分桶表

两个表以相同方式（相同字段）划分桶，两个表的桶个数是倍数关系

建表语句：
CREATE TABLE page_view (
	viewTime INT,
	userid BIGINT,
	page_url STRING,
	referrer_url STRING,
	ip STRING COMMENT 'IP Address of the User'
) COMMENT 'This is the page view table'
PARTITIONED BY(dt STRING, country STRING) CLUSTERED BY(userid) SORTED BY(viewTime) INTO 32 BUCKETS ROW FORMAT DELIMITED FIELDS TERMINATED BY '1' COLLECTION ITEMS TERMINATED BY '2' MAP KEYS TERMINATED BY '3' STORED AS SEQUENCEFILE;


CLUSTERED BY(userid) 
SORTED BY(viewTime) INTO 32 BUCKETS 
CLUSTERED BY(userid) 表示按照 userid 来分桶 
SORTED BY(viewTime) 按照viewtime来进行桶内排序
 INTO 32 BUCKETS 分成多少个桶

OLAP（压秒级响应）:列存储+范围分区+排序+索引+压缩+预计算+数据倾斜