概念
Hive是构建与Hadoop之上的数据仓库软件,能够有效的读取、写入和管理大型数据集合, 并且支持通过SQL查询分析数据。(Hive是基于Hadoop的,Hadoop数据处理任务本质上是 MapReduce,所以HiveSQL执行本质上都是MapReduce任务)。
优缺点比较
优点 | 缺点 |
---|---|
1、可以通过SQL完成ETL(抽取/转换/加载)任务、生成报表、以及数据分析。 2、避免复杂的MapReduce的开发,能够节省大量开发成本 Hive本质上作为一个工具,能够支持多种数据分析引擎。 3、Hive可以支持Hadoop的MapReduce分析引擎,也可以支持Spark等分析引擎。 4、Hive提供JDBC服务,可以通过JDBC连接Hive操作HDFS数据,并且可以整合多种BI可视化工具,Hive可以通过元数据直接访问HDFS上的数据。 5、Hive能够支持多种数据类型和文件格式 。 6、Hive支持自定义函数,用户可以根据需求定义自己的函数进行扩展 | 1、Hive不支持事务操作 2、HiveSQL本身表达能力有限,不能够进行迭代式计算以及数据挖掘 3、Hive操作默认基于MapReduce引擎,延迟比较高不适用于交互式查询。并且基于SQL调优困难 |
使用场景
- Hive可构建基于Hadoop的数据仓库
- Hive适合大数据集的批处理作业,比如行为日志分析、多维数据分析
- 海量结构化数据离线分析
本节完!
*更多信息交流请加QQ:1958917311*