一、简介
1.1 什么是Hive
Hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在HDFS上的数据。
Hive可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能。
Hive可以将SQL转换成MapReduce任务运行,通过自己的SQL查询分析需要的内容。这套SQL简称Hive SQL,使不熟悉MapReduce的用户可以很方便的利用SQL语言查询、汇总和分析数据。
1.2 Hive特点
- 可扩展:Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。
- 延展性:Hive支持用户自定义函数,用户可以根据自己需求来实现自己的函数。
- 容错性:Hive具有良好的容错性,节点出现问题,SQL仍可以完成执行。
二、Hive架构

2.1.1 用户接口:Client
- CLI (hive shell)
- JDBC/ODBC (java访问hive)
- WEBUI (浏览器访问hive)
2.1.2 元数据: Metastore
元数据包括:表名、表所属的数据库、表的拥有者、列/分区字段、表的类型(内部表/外部表)、表的数据所在的

本文介绍了Hive作为基于Hadoop的数据仓库分析系统,如何使用SQL查询HDFS上的数据,探讨了Hive的特性、架构,包括用户接口、元数据、Hadoop组件的角色以及与传统数据库的区别。
最低0.47元/天 解锁文章
2696

被折叠的 条评论
为什么被折叠?



