1.HIVE简介
hive是一个基于hadoop的数据仓库,可以将结构化的数据文件映射为一张hive数据表,并提供简单的查询功能,可以将hql语句转化为MapReduce任务执行。
非编程者也可以对hdfs数据做mapreduce操作。使用hive查询可以快速实现简单的mapreduce操作,不必开发专门的mapreduce应用,学习成本低,十分适合数据仓库的统计分析。
2.数据库与数据仓库数据处理的差别
数据处理可以分为两大类:联机事务处理OLTP(on-line transaction processing)和联机分析处理OLAP(On-Line Analytical Processing)。
OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易系统。
OLAP是数据仓库的主要应用,支持复杂的数据分析操作,侧重决策支持,并且提供直观易懂的查询结果。
OLTP强调数据库的内存效率,强调内存的各种指标命令率,强调绑定变量,强调并发操作。
OLAP强调数据分析,强调SQL执行市场,强调磁盘IO,强调分区。
简言之,数据仓库是用来做查询分析的数据库,基本不用来做插入,修改,删除操作。