Hive简介
Hive是用来干什么的?有什么作用?
Hive来源是由脸书实现并开源
是一个基于Hadoop的一个数据仓库,底层数据在Hdfs之上。
可以使用Hve更方便的使用Hql处理和计算HDFS上的结构化的数据,使用与离线的批量数据计算.
Hive可以提供Hql查询功能,可以将数据映射为一张表,Hive本质是将sql语句转换为MapReduce来运行。
Hive 依赖与HDFS存储数据,Hive将Hql转换成MapReduce执行,所以说Hive是基于Hadoop的一个数据仓库工具,是指计算一款基于Hdfs的MapReduce计算框架,对存储在Hdfs中的数据镜像分析和管理。
使用Hive的原因
果直接使用MapReduce所面临的问题
1:人员成本过高
2:项目周期过短
3:MapReduce实现复杂查询逻辑开发难度过大
为什么使用Hive
1:有好的接口,操作接口采用类SQL的语法,提供快速开发的能力,节省时间
2:学习成本低,避免写MapReduce,减少人员学习成本
3:有更好的扩展性,可自由扩展规模而无重启服务,可以支持用户自定义函数
Hive特点(优点,缺点)
优点
1可扩展性,横向扩展,Hive可以自由的扩展集群的规模,一般情况下不需要重启服务,横向发展:通过分担压力的方式扩展集群的规模纵向扩展.
2延展性:Hive支持自定义函数,用户可以根据自己的需求来实现函数
3:良好的容错性,可以保障即使有节点出问题,sql语句仍可以执行完成。