HIVE的架构模型

最新推荐文章于 2024-05-02 17:23:08 发布

叫我不矜持

最新推荐文章于 2024-05-02 17:23:08 发布

阅读量613

点赞数 1

本文链接：https://blog.csdn.net/SmallCatBaby/article/details/90187674

版权

本文介绍了Hive作为Hadoop数据仓库的工具，其主要优势在于简化MapReduce的开发，提供类似SQL的查询接口。Hive的数据存储和分析特性包括：灵活的数据格式，无索引，以及Partition和Bucket的概念。此外，文章还概述了Hive的整体架构，包括用户接口、Thrift Server、元数据存储和Driver组件。Hive通过编译和优化过程将SQL转化为MapReduce任务，用于执行大规模数据的统计分析。

摘要由CSDN通过智能技术生成

一.Hive 能做什么，与mapreduce 相比优势在哪里（相对于开发）

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。相对于mapreduce 离线计算需要写很多java代码去实现数据提取，hive可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用开发程序，更适合数据仓库的统计分析。

二.为什么说Hive 是Hadoop 的数据仓库，从数据存储和分析方面理解？

1 Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。可以将SQL 查询转换为MapReduce 的job 在Hadoop集群上执行。

2 Hive 没有专门的数据存储格式，也没有为数据建立索引，用户可以非常自由的组织 Hive 中的表，只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive 就可以解析数据。Hive 中所有的数据都存储在 HDFS 中，Hive 中包含以下数据模型：表(Table)，外部表(External Table)，分区(Partition

最低0.47元/天解锁文章

叫我不矜持

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
HIVE的架构模型

一.Hive 能做什么，与mapreduce 相比优势在哪里（相对于开发）hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。相对于mapreduce 离线计算需要写很多java代码去实现数据提取，hive可以通过类SQL语句快速实现简...
复制链接

扫一扫