一、Hive基本概念
1.1 什么是Hive
Hive:由Facebook开源用于解决海量结构化日志的数据统计。
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。
本质是:将HQL转化成MapReduce程序
1)Hive处理的数据存储在HDFS
2)Hive分析数据底层的实现是MapReduce
3)执行程序运行在YARN上
1.2 为什么使用Hive
1)直接使用hadoop所面临的问题
(1)人员学习成本太高
(2)项目周期要求太短
(3)MapReduce实现复杂查询逻辑开发难度太大
2)Hive的好处
(1)操作接口采用类SQL语法,提供快速开发的能力。
(2)避免了去写MapReduce,减少开发人员的学习成本。
(3)扩展功能很方便。
1.3 Hive架构概述
如图中所示,Hive通过给用户提供的一系列交互接口,接收到用户的指令(SQL),使用自己的Driver,结合元数据