Hive优化整理

最新推荐文章于 2024-04-19 17:06:52 发布

其实天狠蓝

最新推荐文章于 2024-04-19 17:06:52 发布

阅读量84

点赞数 1

分类专栏： Hive 文章标签： hive 大数据

本文链接：https://blog.csdn.net/u010747929/article/details/112303622

版权

Hive 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

写本文的目的是为了从本文开始，让自己养成写博文的习惯，也将知识一点点的沉淀下来，自己回头看的时候方便，能为其他人提供一些帮助更好。同时也会整理一些面试题。

hive优化

1、两表join，条件写在的on后面和where后面什么区别？

1. left join，不管on后面跟什么条件，左表的数据都会列出来，右表中关联不上的会置空，因此要想过滤掉脏数据，需把条件放到where后面
2. inner join，满足on后面的条件表的数据才能查出，可以起到过滤作用。也可以把条件放到where后面。

2、distinct 和 group by有什么区别？在哪种情况下使用group by性能会更优？

distinct会将去重字段放到一个reduce中，数据量大的时候效率低
group by，shuffle时会根据group by后面的字段进行分组，分发到多个reduce中，提升效率
因此，在大数据量时用group by代替distinct()

3、group by时由数据中key的问题导致的数据倾斜怎么解决？

set hive.map.aggr=true (开启map端combiner)，重复数据少的话，必要性不大
set hive.groupby.skewindata=true;//开启负载均衡。只能对单个字段聚合，控制生成两个MR，第一个MR的Map输出结果随机分配到Reduce中做部分聚合操作，相同的key可能分到不同的reduce中，达到均衡作用；第二个MR再根据预处理好的数据按照group by key分布到一个reduce中，最终完成聚合操作。

4、小表和大表关联

1、将小表写在前
2、set hive.auto.convert.join =  true ; //将小表刷入内存中

其实天狠蓝

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive优化整理

写本文的目的是为了从本文开始，让自己养成写博文的习惯，也将知识一点点的沉淀下来，自己回头看的时候方便，能为其他人提供一些帮助更好。同时也会整理一些面试题。hive优化1、两表join，条件写在的on后面和where后面什么区别？1. left join，不管on后面跟什么条件，左表的数据都会列出来，右表中关联不上的会置空，因此要想过滤掉脏数据，需把条件放到where后面2. inner join，满足on后面的条件表的数据才能查出，可以起到过滤作用。也可以把条件放到where后面。2、dis.
复制链接

扫一扫

专栏目录