MaxCompute（ODPS）：Hive的进阶者

五只鸭子

已于 2022-05-26 16:40:50 修改

阅读量4.1k

点赞数 1

分类专栏：大数据文章标签： hive odps MaxCompute

于 2022-04-22 21:11:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tuposky/article/details/124355067

版权

大数据专栏收录该内容

14 篇文章 4 订阅

订阅专栏

Hive概述

架构于Hadoop之上，可以将结构化的HDFS文件映射成一张表，并提供了类似于SQL语法的HQL查询功能

核心本质：将HQL语句转换成MapReduce任务

Hive的主要优缺点

优点：
避免了开发人员去实现Map和Reduce的接口，大大降低了学习成本
HQL语法类似于SQL语法，简单、容易上手

缺点：
执行效率比较低 Hive生成的MapReduce任务，不够智能化，容易造成数据倾斜

Hive架构图

每个模块负责的内容：
Meta Store: 元数据，一般存储在mysql
Client: 客户端
Driver:驱动器
HQL Parse: 解析器，HQL解析和语法分析
Physical Plan: 编译生成逻辑执行计划
Query Optimizer: 对逻辑执行计划进行优化
Execution: 把逻辑执行计划转换成物理执行计划
Hadoop
Map Reduce: 执行计算
HDFS: 文件存储
MapReduce 执行原理
MapReduce是一种分布式计算模型，由Map和Reduce组成。 Map()负责把一个大的block块进行切片并计算。 Reduce() 负责把Map()切片的数据进行汇总、计算。

执行的核心思想：相同key的键值对为一组调用一次Reduce方法，方法内迭代这组数据进行计算。

【Map Reduce 详细步骤图】
mapreduce详细步骤

ODPS与Hive的关系
ODPS是阿里基于Hive的核心思想构建的，不同的是Hive的文件存储在hdfs上，ODPS则存在阿里的盘古里。而且ODPS针对Hive做了一些优化

【ODPS架构图】
maxcomputer架构图

ODPS针对HIVE的优化
Query Optimizer 优化器的优化

RBO: 基于规则的优化器 (Oracle 6-9i, Hive)

• 一种过时的优化器框架，它只认规则，对数据不敏感。优化是局部贪婪，容易陷入局部优但是全局差的场景，容易受应用规则的顺序而生产迥异的执行计划，往往结果是不是最优的。

CBO:基于代价的优化器 (Oracle 8开始，Oracle 10g完全取代RBO; MaxCompute)

• Volcano模型，展开各种可能等价的执行计划，然后依赖数据

的统计信息，计算这些等价执行计划的“代价”，最后从中选用cost最低的执行计划。

最典型的优化点：

distinct 的性能优化到和 group by 一致
reduce 分配更加平滑

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
MaxCompute（ODPS）：Hive的进阶者

Hive概述架构于Hadoop之上，可以将结构化的HDFS文件映射成一张表，并提供了类似于SQL语法的HQL查询功能核心本质：将HQL语句转换成MapReduce任务Hive的主要优缺点优点：避免了开发人员去实现Map和Reduce的接口，大大降低了学习成本HQL语法类似于SQL语法，简单、容易上手缺点：执行效率比较低 Hive生成的MapReduce任务，不够智能化，容易造成数据倾斜Hive架构图每个模块负责的内容：Meta Store: 元数据，一般存储在mysqlClient
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

五只鸭子 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。