文章目录
1. Hive简介
1.1 什么是Hive?
Hive是Facebook实现的一个开源的数据仓库工具——
- Hive基于Hadoop实现,底层数据存放在HDFS中,计算(查询)使用MapReduce任务实现
- 可以将结构化的数据文件映射为一张数据库表,并提供HQL(Hive SQL)查询功能,实际上是将HQL语句转化为MapReduce任务运行
这里还需要理解一下数据仓库,数据仓库可以简单理解为存放不同数据源(比如公司支撑不同业务的数据库)的仓库,主要用于查询和分析,也就是基于这些数据去做报表分析、数据挖掘等工作,为企业的决策提供方向和支持。更详细的介绍可以参考数据仓库入门,看这这一篇就够了。
1.2 Hive有什么用?
Hive的优缺点很明显——
- 基于Hadoop实现,适合处理海量数据,具有可扩展性和容错性
- Hive支持自定义函数,实现用户的特定需求
- Hive设计的目标是做OLAP,只能查询和追加(append),而不能进行删改操作
- Hive的查询是转化为MapReduce任务的,实时性差(MR任务启动耗时)
这些优缺点ÿ