hive3之----优化

最新推荐文章于 2022-05-17 16:56:49 发布

话话121

最新推荐文章于 2022-05-17 16:56:49 发布

阅读量658

点赞数

分类专栏： hive hive mysql

本文链接：https://blog.csdn.net/qq_16953611/article/details/82346057

版权

hive mysql 同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

hive

2 篇文章 0 订阅

订阅专栏

1.Map优化

---作业会通过Input的目录产生一个或者多个map任务.set dfs.block.szie=128

---Map越多越好吗？是不是保证每个Map处理接近文件块大小？

---如何合并小文件，减少map数

set mapred.max.split.size=100000000;
set mapred.min.split.size.per.node=100000000;
set mapred.min.split.per.rack=1000000000;
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

适当增加map数

set mapred.map.tasts=10;

提高map端的聚合性能

set  hive.map.aggr=true;

2.reduce的优化

--hive.exec.reducers.bytes.per.reducer;--reduce任务处理的数据量
--调整reduce的个数
   set mapred.reduce.tasks=10

只有一个reduce的情况

没有group by ;order by ;笛卡尔集

3.做分区裁剪：partition

4.Mapjoin：--/*mapjoin(tablelist)*/,必须是小表，通常不超过1G，后者50万条记录

5.先做UNion all，在做join或者group by 等操作可以有效减少MR过程

6.join优化

6.1尽量是有那个同一个键进行连接ON 6.2大表放后面

7.并行执行

set hive.exec.parallel=true

8.数据倾斜：万能方法set .group by .skewindata=true

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

话话121

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

hive3.0新特性

leelongzaitianya的博客

12-07

7568

1，Hive 3.0新特性一：不再支持Mr，取而用Tez 查询引擎，且支持两种查询模式：Container 和 LLAP 2，Hive 3.0新特性二： Hive CLI不再支持（被beeline取代) 3，Hive 3.0新特性三： SQL Standard Authorization 不再支持，且默认建的表就已经是ACID表。 4，Hive 3.0新特性四：支持 “批查询” ...

hive优化

OY_palada

11-28

345

学习笔记： hive优化 1.join查询操作的基本原则：应该将条目少的表/子查询放在join操作符的左边，原因是在join操作的Reduce阶段，位于join操作符左边的表内容会被加载进内存，将条目少的表放在左边，可以减少发生内存溢出错误的几率。 2、group by 优化数据倾斜聚合优化，设置参数hive.groupby.skewindata = true，当选项设定为 true，生

参与评论您还未登录，请先登录后发表或查看评论

Hive 3.x|第十天|表的优化

z754916067的博客

05-17

363

目录小表Join大表步骤大表Join大表空 KEY 过滤空 key 转换SMB Join 小表Join大表倾向把数据量小的表放在join的左边，可以使用map join让小的维度表先进内存，在map端完成join。实际测试发现：新版的 hive 已经对小表 JOIN 大表和大表 JOIN 小表进行了优化。小表放在左边和右边已经没有区别。步骤设置自动选择 Mapjoin set hive.auto.convert.join = true; 默认为 true 大表小表的阈值设置（默认 25M 以

3.2 Hive优化

ifeng

07-28

133

Hive排序全排序局部排序二次排序 order by 全局排序只有一个reducer 性能？ hive.mapred.mode sort by 局部有序 reducer insert overwrite local directory '/home/hadoop/tmp/hive/sort' select * from emp sort by sal desc; distribute by 不是做排序用的类似于mr中的partitioner insert over

Hive调优实战

szn的专栏

04-26

378

Hive优化总结 ---by 食人花优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程，有几个显著的特征: 1.不怕数据多，就怕数据倾斜。 2．对jobs数比较多的作业运行效率相对比较低，...

hive3新特性

top8488.top大数据

09-28

1838

1，Hive 3新特性一：不再支持Mr，取而用Tez查询引擎，且支持两种查询模式：Container和LLAP 2，Hive 3新特性二： Hive CLI不再支持（被beeline取代) 3，Hive 3新特性三： SQL Standard Authorization不再支持，且默认建的表就已经是ACID表。 4，Hive 3新特性四：支持 “批查询”(TEZ)或者 “交互式查询”(LLAP)。 Hive 3其他特性： 1、物化视图重写； 2、自动查...

hive-jdbc-uber-3.1.2+yanagishima-18.0

06-26

Hive JDBC Uber 3.1.2是Hive的Java数据库连接器的一个优化版本，它通过将所有必需的依赖项打包到一个单一的jar文件中，极大地减少了在运行时因缺少依赖而产生的问题。这个版本的特性包括对Hive SQL的全面支持，以及...

hive驱动包hive-jdbc-uber-2.6.5.0-292.jar（用户客户端连接使用）

06-03

3. **设置连接参数**：填写Hive服务器的URL（例如，`jdbc:hive2://hostname:port/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2`），以及认证信息（如用户名和密码）。 4. **测试连接**：点击...

hive-jdbc-uber-2.6.5.0-292.jar驱动

01-05

3. **数据导入导出**：支持将数据导入到Hive或从Hive导出到文件系统。 4. **性能监控**：可以查看Hive查询的执行计划和资源消耗，帮助优化查询性能。 5. **开发支持**：提供代码自动完成、语法高亮和格式化，提升...

HDP平台的Hive性能调优——Hive高性能最佳实践

06-03

HDP平台的Hive性能调优——Hive高性能最佳实践, HDP平台的Hive性能调优——Hive高性能最佳实践

hive-jdbc-3.1.2.jar

12-10

jdbc连接hive所需的一个包（ hive-jdbc-3.1.2.jar）

Hive-jdbc-3.1.1.zip

11-20

Hive-jdbc-3.1.1.zip hive jdbc，用于大数据 hive 开发和数据库连接。

hive-jdbc-uber-2.6.3.0-292.jar

06-22

- 性能优化：根据实际需求调整Hive的配置参数，例如加大执行内存，优化查询性能。总结，"hive-jdbc-uber-2.6.3.0-292.jar"是Hive与DBeaver之间的重要桥梁，它使数据分析师能够在DBeaver这样的通用数据库管理工具...

hive-exec-2.1.1.jar

最新发布

03-14

Apache Hive 是一个构建在 Hadoop 之上的数据仓库基础设施，它允许用户以 SQL（结构化查询语言）的形式查询和管理大型数据集。Hive 提供了一种 SQL 接口来访问数据，这些数据通常存储在 Hadoop 的分布式文件系统...

Hive3新特性

weiha666的博客

08-27

712

Hive ACID v2SQL兼容性约束和代理键物化视图 Hive ACID v2 Hive3的ACID v2相比Hive2的ACID v1，对很多事务的特性进行了优化升级，使之更接近于关系型数据库。使用ACID语义修改现有Hive表数据，包括insert, update, delete, merge 支持数据库四大特性, Atomicity, Consistency, Isolation, Durability 允许在使用长时间运行的分析查询同时进行并发更新。使用MVCC(Multi-Version

Hive3新特性（一）

data2tech的博客

09-22

3804

欢迎关注微信公众号九万里大数据。目录 Hive ACID v2 1.创建ACID事务表 2.支持合并 3.ACID工具 SQL兼容性约束和代理键物化视图 Hive ACID v2 Hive3的ACID v2相比Hive2的ACID v1，对很多事务的特性进行了优化升级，使之更接近于关系型数据库。使用ACID语义修改现有Hive表数据，包括insert, update, delete, merge 支持数据库四大特性, Atomicity, Consistency,.

Hive进阶3

jhchengxuyuan的博客

09-12

378

Hive3 struct： create table if not exists str1( name string, score struct<chinese:int,math:int,english:int> ---注意它的创建和array创建的不同 ) row format delimited fields terminated by '\t' collection items ...

hive 3.x 新特性

yang灬仔

05-27

1974

Apache Hive 3.x 架构介绍 hive 的更新操作一直是大数据仓库头痛的问题，在3.x之前也支持update,但是速度太慢，还需要进行分桶，现在hive 支持全新ACID，并且底层采用TEZ 和内存进行查询，性能是hive2的50倍。生产建议升级到hive3.1.1版本。了解Apache Hive 3主要的设计更改，例如默认的ACID事务处理和仅支持瘦配置客户端，可以帮助您使用新功能来满足企业数据仓库系统不断增长的需求。 1.执行引擎更改 Apache Tez将Map...

hive-exec-*。jar

09-06

这些工具和函数包括表达式解析器、查询解析器、查询优化器、执行计划生成器等。它们协同工作，使得 Hive 可以在 Hadoop 上高效地执行复杂的查询操作。 hive-exec-*.jar 是 Hive 的一个必要组件，用户在安装和配置 ...