数据仓库概念:
数据仓库,英文名称Data Warehouse,简写为DW。
是一种面向分析的存储系统。
他是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建,对多样的业务数据进行筛选与整合。
它为企业提供一定的BI(商业智能)能力,指导业务流程改进、监视时间、成本、质量以及控制。
数据仓库的输入方是各种各样的数据源,最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。
数据仓库作用:
数据可以多维度分析,可以预测,利于做商业决策
数据仓库特点:
主题性:
所有数据都围绕着主题来组织。
集成性:
统一编码,统一单位,统一类型,因为原始数据来自不同数据源,有着不同的存储方式。
非易失性(也叫稳定性):
一般周期性的从生产库拉取数据,那么有些状态可能生产库已经改变了,但在数据仓库已经记录下来了。
随时间变化:
数据仓库中,每条数据都会和时间关联,表达他是什么时间的什么数据。
数据仓库重要概念:
ETL( Extract-Transform-Load):数据的抽取,转换,加载。
市场上有专门的工具做这个(Informatica powercenter、Datastage、Oracle OWB(oracle warehouse builder)、ODI、微软DTS、Beeload、Kettle、Talend 、DataSprider、Spark、等等……)。
常见的数据仓库:
常见的数据仓库就是hive(主要是免费),属于hadoop生态圈的一员,可以查询HDFS(分布式文件系统)中的数据。
Hive有专门的查询语言HiveQL,简称HQL。
了解Hive,首先要了解Hadoop生态圈,HDFS,mapreduce,以及谷歌三大论文等大数据方向的知识,后面再细说。