hive优化

最新推荐文章于 2025-12-11 18:40:05 发布

原创最新推荐文章于 2025-12-11 18:40:05 发布 · 240 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #hive

本文详细介绍了通过MapReduce端的压缩、存储格式修改、负载均衡等手段对Hive进行性能优化的方法，包括Snappy压缩、orc存储格式使用、map端聚合及小文件合并等关键步骤。

hive底层是MapReduce运行的。所以可以以MapReduce的方式进行对Hive优化。

一 map端的压缩：

set hive.exec.compress.intermediate=true;
set mapreduce.map.output.compress=true;
set mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec
# 设置压缩方式，我这里是用Snappy进行压缩的。

二：reduce端压缩：

set hive.exec.compress.output=true;
set mapreduce.output.fileoutputformat.compress=true;
set mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;
# 设置压缩方式，我这里是用Snappy进行压缩的。
set mapreduce.output.fileoutputformat.compress.type=BLOCK;
# 设置输出为块元素

三：存储格式修改：

存储格式使用的是orc，在创建表的时候使用，只有从另一张表中迁移来时在有效。

create table if not exists user(id int, name string)
row format
delimited fields
terminated by "\t"
stored as orc;

四：其他优化：

1：map端进行聚合：

set hive.map.aggr=true;

2：设置负载均衡：

set hive.groupby.skewindata=true;

3：map端进行小文件合并：

set hive.input.format=org.apache.hadoop.ql.io.CompresshiveInputFormat;

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

wm-dyhhd

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Hive优化方法汇总

南洲.的博客

09-01

4736

1、Fetch抓取 Fetch 抓取是指，Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如：SELECT * FROM employees;在这种情况下，Hive 可以简单地读取 employee 对应的存储目录下的文件，然后输出查询结果到控制台。在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more，老版本 hive 默认是 minimal，该属性修改为 more 以后，在全局查找、字段查找、limi

Hive学习之数据去重

weixin_30877227的博客

09-16

203

insert overwrite table store select t.p_key,t.sort_word from ( select p_key, sort_word , row_number()over(distribute by p_key sort by sort_word) as rn ...

参与评论您还未登录，请先登录后发表或查看评论

Hive优化

atwdy的博客

03-18

1227

工作中涉及到优化部分不多，下面的一些方案可能会缺少实际项目支撑，这里主要是为了完备一下知识体系。

Hive 优化

qq_41982570的博客

04-09

2328

Hive 优化

hive 优化

qq_43192537的博客

10-05

2938

hive 优化

HIVE优化

甄知一二的博客

02-26

479

hive优化策略，这篇文章讲的很好

Hive优化补充

雷神乐乐的博客

04-28

2486

Hive数据存储的本质还是HDFS，所有的数据读写都基于HDFS的文件来实现；为了提高对HDFS文件读写的性能，Hive提供了多种文件存储格式：TextFile、SequenceFile、ORC、Parquet等；不同的文件存储格式具有不同的存储特点，有的可以降低存储空间，有的可以提高查询性能。总结：实际工作中文件的压缩格式需要综合来选择。

Hive优化以及相关参数设置

ziaoming_biu的博客

05-01

3330

如取模结果为0的数据记录存放到一个文件，取模为1的数据存放到一个文件，取模为2的数据存放到一个文件。如果某个不平衡的job中有几个 reduce task 执行的时间要比其他的 reduce task 消耗的时间要多得多的话，那么保留的插槽就会一直空闲却无法被其他的 job 使用，直到所有的 task 都结束了才会释放。默认情况下，在进行分组聚合的时候，相同的键的数据会进入到同一个reduce中进行处理，如果分组的时候某一个值有大量的重复的数据，则会导致某一个reduce任务量会很大，从而导致数据倾斜。

Hive优化高频面试题

一个大数据的爱好者

09-27

1619

hive优化有关的面试题

Hive优化（提高hive运行速度）

01-20

然而，Hive 的性能通常不如传统的数据库系统，因此对其进行优化是提高数据分析效率的关键。本文将主要讨论如何通过启用 Hive 的本地模式来提高其运行速度。一、Hive 使用本地模式执行操作在默认情况下，当 Hive ...

hive优化案例

01-14

作为企业Hadoop应用的核心产品，Hive承载着FaceBook、淘宝等大佬 95%... 拥有1万多个Hive作业的大电商如何进行Hive优化的？本系列课结合企业实战和场景从作业架构层面、Hql(Hive sql)语法层面、Hive参数层面依次讲述。

Hive优化案例、Hive数据处理模式、Hive常见问题与优化、Hive实践

11-07

Hive优化案例、Hive数据处理模式、Hive常见问题与优化、Hive实践 Hive是一种基于Hadoop的数据仓库工具，用于对大规模数据进行处理和分析。在大数据时代，Hive的应用非常广泛，本文将从Hive优化案例、Hive数据处理...

Hive 优化操作及其原理

05-13

内容概要：本文档详细介绍了Hive在实际应用中的优化操作及其原理，涵盖了从建表优化、查询优化到数据倾斜处理等多个方面。首先讨论了建表时的优化技巧，包括表类型的选择、分桶表的创建及数据加载、分区表的应用等。...

从 “人工标注” 到 “AI 驱动”：数据分类分级技术的效率革命

KKKlucifer的博客

12-11

253

在数据安全与合规治理常态化的今天，数据分类分级已成为企业筑牢数据安全防线的 “第一道关口”。传统人工标注模式下，企业需投入大量人力梳理海量数据，不仅耗时耗力、成本高昂，还存在标注标准不统一、遗漏率高、难以适配动态业务场景等痛点。随着 AI 技术与数据治理的深度融合，正掀起一场效率革命，实现从 “人治” 到 “智治” 的跨越，为企业数据安全治理注入全新动能。

java高并发高可用场景解决方案

Liaka的博客

12-10

809

相信大部人初级开发跟我一样，平时接触不到什么高并发场景，虽然也能花心思做，但总是受困于杀鸡用牛刀或工资配不上努力或没时间等。故本人整理一份分场景的高并发解决方案，也会包括高可用场景。

windows10 上安装 elasticsearch

最新发布

恒

12-11

438

注意到配置 kibana 访问 ES 采用的是 kibana_system 账号，而不能是 elastic 账号。kibana_system 是 ES 自动设置的服务于kibana 的账号。Kibana是Elasticsearch的可视化管理工具 —— ELK 的 K。假设 ES 集群名：sqldam ，可以支持单节点实例和多节点实例。你可以部署为单机单节点，单机多节点，多机多节点。安装最新的 es 和 kibana。Windows 上目录配置项使用的 “/” 或 “” 都不是随意的，请严格按照本文设置。

祝贺朱雀三号首飞成功入轨！国产时序数据库 IoTDB 助力火箭试验

qin_DB的博客

12-05

1098

朱雀三号首飞成功入轨，为国家航天运力体系增添了一款性能先进、潜力巨大的新型主力火箭，补强了我国大运力、低成本、高频次进入空间的运载能力，精准响应了国家卫星互联网星座工程建设大规模组网的迫切需求。本次首飞任务不仅检验了朱雀三号总体方案、动力系统、飞控系统、结构与航电系统的正确性和可靠性，也获取了真实飞行状态下的大量关键工程参数。，带回了真实飞行条件下的重要工程参数，为后续型号优化设计、提升整体可靠性、实现子级回收及重复使用奠定了重要基础。每一次成功的首飞，都是无数次试验和无数条数据的积累。

Spring Boot + Easy-ES 3.0 + Easyearch 实战：从 CRUD 到“避坑”指南

铭毅天下Elasticsearch

12-09

714

Easy-ES 3.0.0 虽然简化了配置，但对 ES 客户端版本的兼容性依然有要求。（简称 EE）作为 ES 界的“MyBatis-Plus”，凭借其强大的 ORM 能力和简洁的 API，正在成为许多 Java 开发者的首选。：Windows 终端默认 GBK，而 Maven 和 Java 都在用 UTF-8，编码不一致导致“鸡同鸭讲”。：Windows PowerShell 下跑 Maven 测试，日志里的中文全是乱码，根本看不懂报错信息。代码写完了，一运行测试用例，往往才是噩梦的开始。