1,HIVE
Hadoop 的数据仓库处理工具,数据存储在Hadoop 兼容的文件系统(例如,Amazon S3、HDFS)中。hive 在加载数据过程中不会对数据进行任何的修改,只是将数据移动到HDFS 中hive 设定的目录下。
1)场景
hive 的最佳使用场合是大数据集的批处理作业,例如,网络日志分析。
2)特性
- 只允许查,不允许修改;
- 不提供实时的查询,一般用于存储冷数据;
入库性能较弱、查询分析延时较高;基于HDFS的离线数仓。 - 支持创建索引;
- 类SQL查询:hiveSQL
hive 的数据存储在 HDFS 中,大部分的查询由 MapReduce 完成(不包含*
的查询,比如select * from tbl
不会生成 MapReduce 任务)。 - Hive本身并不存储数据,而是为HDFS上的文件赋予数据库表、列的语义,保存对应的元数据供查询时使用。
- Hive本身并不提供计算引擎,而是使用Hadoop生态的MapReduce或Spark实现计算