HIVE简介
由Facebook开发,Hadoop集群:庞大数据存储 & 统计(计算)需求
- HIVE基于Hadoop的数据仓库工具,强依赖
- 原理:将HQL语句转换成Mapreduce任务 SQL –> Mapreduce –> Hadoop
- 建立在Hadoop的其他组件之上
- 依赖HDFS进行存储
- 依赖Mapreduce进行查询
数据仓库
数据源
- 外部数据:第三方系统(爬虫)
- 业务数据系统:内部系统,OA、CRM、CMS等
文档资料:网站附件、公司内部文件
抽取:数据源 -> 数据仓库
- 推:源自动将数据发送到数据库
- 拉:数据仓库主动从指定位置去拿
数据清洗
- 装载:将清洗后的数据,永久或暂时存储在数据仓库
- 刷新:将新的数据刷新到数据仓库中
数据仓库与管理
- 元数据管理:存储数据库、表、字段,要求速度快,数据量小建议使用RDBMS(关系型数据库,如MySQL)
- 数据仓库管理系统:只存储需要数据,HIVE
- 数据集市:从数据库中抽取有价值的信息
- OLAP服务器
- 服务
- 前端工具与应用
- 数据分析
- 数据报表
- 数据挖掘