Hive与优化方法

最新推荐文章于 2022-03-21 11:47:46 发布

oahaijgnahz

最新推荐文章于 2022-03-21 11:47:46 发布

阅读量1.2k

点赞数

分类专栏：大数据相关面试文章标签： hive 大数据经验分享

本文链接：https://blog.csdn.net/weixin_38836273/article/details/117783045

版权

本文详细介绍了Hive的概念、架构以及与数据库的区别，强调了Hive在大数据处理中的角色。文中深入探讨了Hive的重要概念，如内部表、外部表、分区表、分桶、排序关键字和存储格式，并提供了Hive调优策略，包括避免不必要的MR任务、表优化、数据倾斜处理以及合理设置Map和Reduce任务数。此外，文章还提到了并行执行、严格模式和JVM重用等优化方法。

摘要由CSDN通过智能技术生成

Hive与优化方法

Java、大数据开发学习要点（持续更新中…）

一、Hive概念

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。其本质是，将HQL转化成MapReduce程序。底层数据存储在HDFS上，由于延迟较大所以一般适用于离线大批量的数据计算和分析。
hive流程

二、Hive架构

Hive架构

用户接口Client：
CLI（hive shell）、JDBC/ODBC(java访问hive)、WEBUI（浏览器访问hive）
元数据Metastore：
元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；默认存储在自带的derby数据库中，推荐使用MySQL存储Metastore。
Hadoop：
使用HDFS进行存储，使用MapReduce进行计算。
驱动器Driver(Hive执行过程)：
- 解析器（SQL Parser）：将SQL字符串(shell命令行、JDBC、Web)转换成抽象语法树AST，这一步一般都用第三方工具库完成，比如antlr；对AST进行语法分析，根据MetaStore中的元数据信息判断SQL语句的合法性，比如表是否存在、字段是否存在、SQL语义是否有误。
- 编译器（Physical Plan）：将抽象语法树编译生成逻辑执行计划。
- 优化器（Query Optimizer）：对逻辑执行计划进行优化。
- 执行器（Execution）：把逻辑执行计划转换成可以运行的物理计划存储在HDFS上由计算引擎进行调用。对于Hive来说，就是MR/Spark任务。

三、Hive与数据库的比较

Hive 和数据库除了拥有类似的查询语言，再无类似之处。其实记住Hive是数仓工具就可以将其与数据库区别开来。

Hive与传统数据库的区别：

数据更新：由于Hive是针对数据仓库应用设计的，而数据仓库的内容是读多写少的。因此，Hive中不建议对数据的改写，所有的数据都是在加载的时候确定好的。而数据库中的数据通常是需要经常进行更新。
数据查询：传统数据库数据由于索引的存在，在数据量较小的情况下查询较快，并且自己提供执行引擎。而Hive数据查询是整表或者分区表的扫描，只有在大数据情况

最低0.47元/天解锁文章

oahaijgnahz

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
3
评论
Hive与优化方法

Hive与优化方法文章目录Hive与优化方法一、Hive概念二、Hive架构三、Hive与数据库的比较四、Hive中一些重要的概念4.1 内部表和外部表4.2 分区表4.3 Hive排序关键字4.4 Hive分桶4.5 三种排序窗函数的区别五、Hive调优5.1 部分场景下尽可能避免启用MR5.2 表的优化5.3 数据倾斜优化5.3 其他优化Java、大数据开发学习要点（持续更新中…）一、Hive概念 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供
复制链接

扫一扫