Hive调优

mbb小马

于 2024-08-13 16:10:40 发布

阅读量421

点赞数 4

文章标签： hive hadoop 数据仓库

本文链接：https://blog.csdn.net/mbb00/article/details/141166301

版权

一：参数调优

1.map和reduce的container的 cpu数和内存数调大

2.slowStart参数，这个参数就是设置map任务完成多少后，才启动reduce的参数

3.合并小文件的参数

二：sql调优

1.避免使用select * 因为会导致map端输出数据的时候，量比较大，本质就是列裁剪

2.有分区表的时候，一定是先过滤分区数据，本质就是分区裁剪

3.谓词下推：就是先使用where 对过滤条件中的数据进行过滤

4.Count(distinct) 会出现一个reducer的情况，所以基本上都是使用group by 进行代替

5.全局排序，取前N名时，必须使用order by。但是order by会导致出现一个reducer的情况，所以可以先使用 distribute by ... sort By ...limit 先进行分区内部取前N名最后套一层再用 order by，那么这个reducer 处理的数据量就小了很多

6.碰到那种可预见性的两张大表关联，可以给对这两张表创建分桶表

7.做hive 的join时，在业务允许的情况下，一定要提前去重，否则会出现数据膨胀的情况（笛卡尔积）

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

mbb小马

关注关注

4
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Hive参数调整详细

someInNeed的博客

11-08

2505

--压缩配置： -- map/reduce 输出压缩（一般采用序列化文件存储） set hive.exec.compress.output=true; set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; set mapred.output.compression.type=BLOCK; --任务中间压缩 set hive.exec.compress.intermediate=true; set hi.

hive on spark 时，executor和driver的内存设置，yarn的资源设置

m0_37759590的博客

02-18

2463

hive on spark 时，executor和driver的内存设置，yarn的资源设置。

参与评论您还未登录，请先登录后发表或查看评论

hive 入门配置堆内存 (八)

weixin_43205308的博客

04-11

622

新版本的Hive启动的时候，默认申请的JVM堆内存大小为256M，JVM堆内存申请的太小，导致后期开启本地模式，执行复杂的SQL时经常会报错：java.lang.OutOfMemoryError: Java heap space，因此最好提前调整一下HADOOP_HEAPSIZE这个参数。

黑猴子的家：Hive 扩展项目五之JVM堆内存溢出

黑猴子的博客

09-30

359

1、描述 java.lang.OutOfMemoryError: Java heap space 2、解决在yarn-site.xml中加入如下代码 ##允许最大MapReduce字节数 <property> <name>yarn.scheduler.maximum-allocation-mb</name> <value&...

hive 内存溢出 hive设置内存大小

qq_51867867的博客

09-19

2112

hive 内存溢出 hive设置内存大小转载Hive 调优指南Apache Hive 是一个基于 Hadoop 的数据仓库解决方案，用于查询和分析大量的结构化数据。为了提高 Hive 查询性能和效率，本文将介绍一些 Hive 调优的策略和方法。

hive参数设置

stable_zl的博客

07-16

6371

一、内存设置 set mapreduce.map.memory.mb=4096;// 每个Map Task需要的内存量 set mapreduce.map.java.opts=-Xmx3276M; // 每个Map Task 的JVM最大使用内存 set mapreduce.reduce.memory.mb=4096; // 每个Reduce Task需要的内存量 set mapreduce.reduce.java.opts=-Xmx3276M; // 每个Reduce Task 的JVM最大使用内存 se

调整Hive查询临时内存大小的方法

weixin_42326851的博客

01-10

2208

调整Hive查询临时内存大小的方法

Hive所有的配置总结转载

li793829630的博客

11-23

1053

hive的配置： hive.ddl.output.format：hive的ddl语句的输出格式，默认是text，纯文本，还有json格式，这个是0.90以后才出的新配置； hive.exec.script.wrapper：hive调用脚本时的包装器，默认是null，如果设置为python的话，那么在做脚本调用操作时语句会变为python hive.exec.plan：hive执行计划的文件路径，默认是null，会在运行时自动设置，形如hdfs://xxxx/xxx/xx； hive.exec.scratch

13.107.最全的Hive 优化方案汇总：临时参数的作用域、切分大文件、合并小文件、设置 Map 和 Reduce 的内存大小、设置 Map 和 Reduce 的堆大小设置等

涂作权的博客

08-31

1197

13.107.最全的Hive 优化方案汇总：1.1.8. 临时参数的作用域：1.1.10.切分大文件1.1.11.合并小文件1.1.12.设置 Map 和 Reduce 的内存大小1.1.13.设置 Map 和 Reduce 的堆大小设置1.1.14.开启Combiner功能：在map端预聚合1.1.15.拓扑图，优化并行执行1.1.16. 万能方法1：一个MR，拆成多个（即纵向拆分），为了降低数据倾斜的压力。【比较少用】

Hive sql在执行时如何优化？

科小勒的博客

07-10

546

hive sql优化

MapReduce 参数优化

大数据流浪法师的学习笔记与分享

11-26

331

MapReduce重要配置参数 1 资源相关参数以下调整参数都在mapred-site.xml这个配置文件当中有 //以下参数是在用户自己的mr应用程序中配置就可以生效 (1) mapreduce.map.memory.mb: 一个Map Task可使用的资源上限（单位:MB），默认为1024。如果Map Task实际使用的资源量超过该值，则会被强制杀死。 (2) mapreduce.red...

Hive 调优

记录点点滴滴

05-11

1510

Hive 调优执行计划（Explain）基本语法查看执行计划查看详细执行计划 Fetch抓取设置成 none 设置成 more 本地模式 HQL 语法优化小表大表 Join ( MapJoin ) 设置 MapJoin 参数 MapJoin 工作机制创建表导入数据 Join 大表 Join 大表空 KEY 过滤空key转换不随机分布空null值随机分布空 null 值 SMB ( Sort Merge Bucket join ) Group By Count(Distinct) 去重

HIVE 内存溢出常见问题

热门推荐

yisun123456的博客

08-01

3万+

MapReduce作业运行过程中内存溢出错误分类 1、Mapper/Reducer阶段JVM内存溢出（一般都是堆） 1)JVM堆(Heap)内存溢出：堆内存不足时，一般会抛出如下异常：第一种：“java.lang.OutOfMemoryError:” GC overhead limit exceeded；第二种：“Error: Java heapspace”异常信息；第三种：“ru...

hive调优系列—针对mapreduce进行调优

eli的博客

09-07

1260

本文主要针对mapreduce的配置对hive进行调优。更多配置可查看hive官网。

hive参数优化目录

weixin_55866174的博客

04-02

2324

Hive优化--关键参数配置指导

点点滴滴一世界

10-20

6094

1. 关键参数配置指导 1.1. Container内存相关

基于CDH环境下的Hive数仓配置及优化

小叮当的博客

10-12

2222

Hive数仓及优化

【硬刚Hive】Hive高级（3）：优化(3) 合理设置 Map 及 Reduce 数/并行执行/ 严格模式/JVM 重用/压缩

微信搜：import_bigdata，大数据领域硬核原创作者

09-11

824

欢迎关注博客主页：微信搜：import_bigdata，大数据领域硬核原创作者_王知无(import_bigdata)_CSDN博客欢迎点赞、收藏、留言，欢迎留言交流！本文由【王知无】原创，首发于 CSDN博客！本文首发CSDN论坛，未经过官方和本人允许，严禁转载！本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hive部分补充。 5 合理设置 Map 及 Reduce 数 1）通常情况下，作业会通过 input 的目录产生一个或者多个 map ....

hive 设置map端内存

zhangyanhong198707的博客

08-02

1万+

set mapreduce.map.memory.mb=4096; set mapreduce.map.java.opts=-Xmx3600m;

hive调优

Hive调优

一 ：参数调优

二：sql调优

一：参数调优