hive jdbc 访问配置_什么是hive？一篇文章讲解清楚

最新推荐文章于 2021-01-19 04:26:57 发布

刘万祥ExcelPro

最新推荐文章于 2021-01-19 04:26:57 发布

阅读量159

点赞数

文章标签： hive jdbc 访问配置

本文链接：https://blog.csdn.net/weixin_33188789/article/details/112277737

版权

开门见山，什么是hive？

一个 hadoop 的客户端。

hive能做什么？

hive是基于Hadoop的一个数据仓库工具

用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。
hive可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。

HIVE的基本架构

　　作为Hadoop的主要数据仓库解决方案，底层存储依赖于HDFS，而Hive SQL是主要交互接口，而真正的计算和执行则由MapReduce完成，它们之间的桥梁是Hive引擎。接下来，具体看下HIVE的引擎架构：

Hive的主要组件包括UI组件、Driver组件(Complier、Optimizer和Executor)、Metastore组件、CLI(Command Line Interface，命令行接口)、JDBC/ODBC、Thrift Server和Hive Web Interface(HWI)等。，接下来分别对这几个组件进行介绍。

Drvier组件

　　　　该组件是Hive的核心组件，该组件包括Complier(编译器)、Optimizer(优化器)和Executor(执行器),它们的作用是对Hive SQL语句进行解析、编译优化、生成执行计划，然后调用底层MR计算框架。

MetaStore组件

　　　　该组件是Hive用来负责管理元数据的组件。Hive的元数据存储在关系型数据库中，其支持的关系型数据库有Derby和mysql，其中Derby是Hive默认情况下使用的数据库，它内嵌在Hive中，但是该数据库只支持单会话，也就是说只允许一个会话链接，所以在生产中并不适用，其实其实在平时我们的测试环境中也很少使用。在我们日常的团队开发中，需要支持多会话，所以需要一个独立的元数据库，用的最多的也就是Mysql，而且Hive内部对Mysql提供了很好的支持。

　　　　Hive的命令行接口