大数据技术之 Hive

本文详细介绍了Hive的核心原理,包括Hive的基本概念、底层执行架构,阐述了HQL如何转化为MapReduce任务的流程。此外,文章还详细探讨了Hive的安装部署步骤,包括环境配置、MySQL安装。在数据操作部分,讲解了Hive的常用操作,如分区表、分桶表、排序和窗口函数。针对数据倾斜问题,文章深入剖析了其原因和解决方案,提出了一系列数据优化策略,包括SQL语句优化、存储格式选择、压缩格式、并行执行和JVM优化等。通过对Hive的深入理解和实践,可有效提升大数据处理效率。
摘要由CSDN通过智能技术生成

一、Hive 底层原理

1. Hive 基本概念

1)Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。
2)Hive 本质:将 HQL 转化成 MapReduce 程序;Hive 处理的数据存储在 HDFS;Hive 分析数据底层的实现是 MapReduce
执行程序运行在 Yarn 上

2. Hive 底层执行架构

1)在 Hive 这一侧,总共有五个组件:
UI:用户界面。可看作我们提交SQL语句的命令行界面;
DRIVER:驱动程序。接收查询的组件。该组件实现了会话句柄的概念;
COMPILER:编译器。负责将 SQL 转化为平台可执行的执行计划。对不同的查询块和查询表达式进行语义分析,并最终借助表和从 metastore 查找的分区元数据来生成执行计划;
METASTORE:元数据库。存储 Hive 中各种表和分区的所有结构信息;
EXECUTION ENGINE:执行引擎。负责提交 COMPILER 阶段编译好的执行计划到不同的平台上;
2)基本流程:
步骤1ÿ

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值