【hadoop学习笔记】【3】Hive调优

最新推荐文章于 2023-12-22 14:40:55 发布

路过倾蜓

最新推荐文章于 2023-12-22 14:40:55 发布

阅读量334

点赞数

分类专栏： hadoop相关文章标签： hive hadoop flink

本文链接：https://blog.csdn.net/qq_40273172/article/details/123623937

版权

hadoop相关专栏收录该内容

5 篇文章 0 订阅

订阅专栏

文章目录

1.fetch抓取
2. 本地查询
3.mapjoin
4.group by
5.COUNT(DISTINCT)
6.尽量避免笛卡尔积
7.动态分区
8.并行执行

1.fetch抓取

某些情况查询不必使用mapreduce

# 执行mr
set hive.fectch.task.conversion=none;
# 不执行mr
set hive.fectch.task.conversion=more;

2. 本地查询

小数据集不惜要启动集群，在单台机器上处理任务：

set hive.exex.mode.local.auto=true;

3.mapjoin

如果不指定map端join或者不符合map端join条件，hive解析器在reduce阶段完成join，容易数据倾斜，可以使用map端join将小表全部加载到内存在map端join避免reduce。

# 设置map join（高版本默认是true）
set hive.auto.convert.join=true;
# 大表小表阈值设置
set hive.mapjoin.smalltable.filesize=25123456;

4.group by

默认情况，map阶段同一个key数据发给一个reduce，如果一个Key数据过大就会数据倾斜，并不是所有聚合操作在reduce端完成，在map端也可以。类似规约

# map端聚合，默认true
set hive.map.aggr=true;
# map端聚合操作的条目数量
set hive.groupby.mapaggr.checkinterval=100000;
# 数据倾斜时候负载均衡，默认false
set hive.groupby.skewindata=true;

5.COUNT(DISTINCT)

count distinct 需要用一个reduce task完成，
一般先用group by再用count

6.尽量避免笛卡尔积

7.动态分区

根据给定字段，自动分区

开启动态分区功能

set hive.exec.dynamic.partition=true;

设置非严格模式，（严格代表至少一个分区是静态分区）所有分区字段都可以动态分区

set hive.exec.dynamic.partition.mode=nonstrict;

在所有MR结点上，最大一共的动态分区个数

set hive.exec.max.dynamic.partitions=1000;

在每个MR结点上，最大的动态分区个数

set hive.exec.max.dynamic.partitions.pernode=100;

空分区是否报异常

8.并行执行

set hive.exec.parallel =true;

路过倾蜓

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【hadoop学习笔记】【3】Hive调优

文章目录1.fetch抓取2. 本地查询3.mapjoin4.group by5.COUNT(DISTINCT)6.尽量避免笛卡尔积7.动态分区8.并行执行1.fetch抓取某些情况查询不必使用mapreduce# 执行mrset hive.fectch.task.conversion=none;# 不执行mrset hive.fectch.task.conversion=more;2. 本地查询小数据集不惜要启动集群，在单台机器上处理任务：set hive.exex.mode.loca
复制链接

扫一扫

专栏目录