数据仓库概念
数据仓库即DataWareHouse,简称DW或DWH,百度百科定义为
数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制
感觉讲的比较泛,我理解他说是一类数据库的定义,是一套数据库设计、数据管理和存储的理念;从数据库角度来说,一种针对特殊业务用于分析的数据库,区别于常见的业务数据库(如某个商城的订单库),数据仓库通常使用于对于一些分析的场景,它主要用于一些分析操作,偏向通过数据对决策支持,并且能够提供直观易懂的查询结果(如BI报表);
例如某商城随着业务增长,要通过不断的分析人群购买信息,为商城的一些业务提供数据服务,如推荐,而要分析这些购买人群数据,很难轻易的从业务数据库直接抽离数据直接进行分析,业务数据库通常需要实时应用业务的,面对大量复杂的查询容易对业务造成影响,这时候就需要使用数据仓库了,从复杂的业务中周期性的提取出需要可能会分析到的数据然后经过一定加工进入到数据仓库中,然后进行各种聚合等操作的分析,数据仓库区别业务库一般不需要需要用到事务,数据的操作一般来说也是批量的,且数据仓库在设计上甚至需要一定的数据冗余,例如一个时间列date_time [2017/09/01 01:01:01],通常会将时间列派生出year[2017]、month[09]、day[01] 等甚至一些特殊的需要列如year_month[2017-09]、year_week[2017-36]、year_quarter[2017-03]等等一些方便直接