Hive介绍以及Hive架构详解
概念
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能, 是一种大数据离线分析工具
Hive的底层就是将类SQL语句转换成MapReduce
Hive提供了一系列的工具, 可以用来进行数据提取, 转化, 加载(ETL Extract-Transform-Load)
Hive的特点
优点
- 操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)
- 避免了去写MapReduce,减少开发人员的学习成本
- Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数
- 可以处理海量数据
缺点
- 因为Hive底层是MapReduce, 所以执行延迟比较高, 无法提供实时查询, 而且不支持流式数据
- 不支持行级别的增删改
- 迭代算法无法表达
- Hive优化比较困难
数据库和数据仓库对比
数据库 | 数据仓库 |
---|---|
为线上系统提供实时数据 | 为离线分析存储历史数据 |
具有完整的增删改查的能力 | 只支持一次写入多次查询,不支持行级别的增删改 |
具有完整的事务能力 | 不强调事务的特性 |