1.认识Hive
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,可以将SQL语句转换为MapReduce任务运行。Hive提供了一系列的工具,可以用来进行数据提取转化加载(ETL),是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
2.Hive的优势和特点
提供了一个简单的优化模型
HQL类SQL语法,简化MR开发
支持在不同的计算框架上运行
支持在HDFS和HBase上临时查询数据
支持用户自定义函数、格式
成熟的JDBC和ODBC驱动程序,用于ETL和BI
稳定可靠(真实生产环境)的批处理
有庞大活跃的社区
可扩展:Hive可以自由扩展集群的规模,一般情况下不需要重启 服务。
延展性:Hive支持用户自定义函数,用户可以根据自己的需求来实现自定义的函数。
容错性:良好的容错性,即使节点出现SQL仍可完成执行。
3.Hive架构设计
(1).Hive架构图
(2).Hive基本构成
Hive的体系结构分为以下几部分。
a.用户接口主要有3个:CLI、Client和HWI(Hive Web Interface)。其中最常用的是CLI,CLI
【大数据】数据仓库Hive--Hive基础知识
最新推荐文章于 2024-08-10 03:01:54 发布
![](https://img-home.csdnimg.cn/images/20240711042549.png)