数据仓库概念
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
根本目的 是为了支持企业内部的商业分析和决策,基于数据仓库的分析结果,做出相关的经营决策.
数据仓库的体系结构
数据仓库与数据库的区别
数据仓库中的数据比较稳定,保留了大量历史数据;
而数据库只保存某一时刻的数据.
Hive
对于传统数据仓库来说,既是数据存储产品也是分析产品,但Hive并不提供这些功能,它提供了类似关系数据库SQL语言的查询语言HiveQL,可以通过HiveQL语句快速实现简单的MapReduce统计,Hive自身将HiveQL语句转换为MapReduce任务进行运行.
两个方面特性
(1)采用批处理方式处理海量数据
(2)Hive提供了一系列对数据进行提取,转换,加载ETL的工具
Hive与其他组件的关系
Hive在企业中的应用
Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。
BI(Business Intelligence) 即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确地提供报表并提出决策依据,帮助企业做出明智的业务经营决策。
Hive系统架构
- 用户接口模块
包括CLI、HWI (HiveWebInterface)、JDBC、ODBC、Thrift Server - 驱动模块
- 包括编译器、优化器、执行器,负责把HiveQL转化为一系列MapReduce作业
- 元数据存储模块
SQL转换成MapReduce基本原理
(1)join的实现原理
(2) group by的实现原理
Hive安装
http://dblab.xmu.edu.cn/blog/1080-2/
Hive数据类型