1、Hive:基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。
本质是将HQL转化成MapReduce程序
hive处理的数据存储在HDFS中,Hive分析数据底层的实现是MapReduce,执行程序运行在Yarn上
但是表达能力有限,迭代式计算无法表达
2、工作机制
Hive通过给用户提供的一系列交互接口,接收到用户的指令(SQL),使用自己的Driver,结合元数据(MetaStore),将这些指令翻译成MapReduce,提交到Hadoop中执行,最后,将执行返回的结果输出到用户交互接口。
3、hive中不建议对数据的改写,所有的数据都是在加载的时候确定好的。由于使用MR计算和没有索引,所以使用Hive查询的时候延迟较高。比传统数据库更具扩展性。
4、元数据:Metastore
默认存储在自带的derby数据库中,推荐使用MySQL存储Metastore,不然限制了只能在hive窗口中打