【大数据】Hive

最新推荐文章于 2024-08-07 10:49:21 发布

张茂祯

最新推荐文章于 2024-08-07 10:49:21 发布

阅读量323

点赞数

分类专栏：大数据相关

本文链接：https://blog.csdn.net/Danerzz/article/details/111169130

版权

Hive是一个基于Hadoop的数据仓库工具，提供SQL查询功能，用于存储、查询和分析大规模数据。Hive与关系数据库的主要区别在于其使用HDFS存储，采用MapReduce计算模型，适合批量数据挖掘而非实时查询。本文介绍了Hive的概念、元数据服务、客户端组件，以及Hive的DDL操作，包括建库、建表等，并讲解了不同类型的表连接，如笛卡尔积、内连接、外连接等。

摘要由CSDN通过智能技术生成

Hive概念

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并且提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。
Hive是建立在Hadoop上的数据仓库基础构架。提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言，称为HQL，它允许熟悉SQL的用户查询数据。

Hive与关系数据库的区别：

Hive和关系数据库存储文件的系统不同，hive使用的是hadoop的HDFS（hadoop的分布式文件系统），关系数据库则是服务器本地的文件系统；
Hive使用的计算模型是MapReduce，而关系数据库则是自己设计的计算模型
关系数据库都是为实时查询的业务进行设计的，而Hive则是为海量数据做数据挖掘设计的，实时性很差；实时性的区别导致Hive的应用场景和关系数据库有很大的不同。
Hive很容易拓展自己的存储能力和计算能力，这个是继承Hadoop的，而关系数据库在这个方面要比数据库差很多。

服务端组件：
Driver组件：该组件包括Complier、Optimizer和Executor，它的作用是将我们写的HiverQl（类SQL）语句进行解析、编译优化，生成执行计划，然后调用底层的MapReduce计算框架
Metastore组件：元数据服务组件，这个组件存储Hive的元数据，hive的元数据存储在关系数据库里，hive支持的关系数据库有derby、mysql。元数据对于hive十分重要，因此hive支持吧metastore服务独立出来，安装到远程的服务器集群里，从而解耦hive服务和metastore服务，保证hive运行的健壮性。
Thrift服务：thrift是facebook开发的一个软件框架，它用来进行可拓展且跨语言的服务的开发，hive集成了该服务，能让不同的编程语言调用hive的接口。

客户端组件：
CLI：command line interface,命令行接口
Thrift客户端：上面的架构图里没有写上Thrift客户端，但是five架构的许多客户端接口是建立在thrift客户端之上，包括JDBC和ODBC接口。
WEBGUI：hive客户端提供了一种通过网页的方式访问hive所提供的服务。这个接口对应hive的hwi组件（hive web interface），使用前要启动hwi服务在这里插入图片描述

Hive和关系数据库的区别：

关系数据库中，表的加载模式是在数据加载时强制确定的（表的加载模式是指数据库存储数据的文件格式），如果加载数据时发现加载的数据不符合模式，关系数据库会拒绝加载数据，这个就叫做“写时模式”，写实模式会在数据加载时候对数据模式进行检查校验操作。Hive在加载数据时候和关系数据库不同，hive在加载数据时候不会对数据进行检查，也不会更改被加载的数据文件，而检查数据格式的操作是在查询操作时候执行，这种模式叫“读时模式”。在实际应用中，写时模式在加载数据时候会对列进行索引，对数据进行压缩，因此加载数据的速度很慢，但是当数据加载好了，我们去查询数据的时候，速度很快。但是当我们的数据是非结构化，存储模式也是未知时，关系数据操作这种场景就麻烦多了，这时候hive就会发挥它的优势
关系数据库一个重要的特点是可以对某一行或某些行的数据进行更新、删除操作，hive不支持对某个具体行的操作，hive对数据的操作只支持覆盖原数据和追加数据。Hive也不支持事务和索引。更新、事务和索引都是关系数据库的特征，这些hive都不支持，也不打算支持，原因是hive的设计是海量数据进行处理，全数据的扫描是常态，针对某些具体数据进行操作的效率很差，对于更新操作，hive是通过查询将原表的数据进行转化，最后存储在新表里，这和传统数据库的更新操作有很大的不同。
Hive也可以在hadoop做实时查询上最一份自己的贡献，那就是hbase集成，hbase可以快速查询，但是hbase不支持SQL的语句，那么此时hive可以给hbase提供sql语法解析的外壳，可以用类sql语句操作hbase数据库。