大数据之数据仓库
数据仓库
1、数据仓库的基本概念
数据仓库(Data Warehouse,可简写为DW或DWH)是用来构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它处于分析报告和决策支持目的而创建的。
数据仓库本身并不"生产"数据,同时也不"消费"任何数据,数据来源于外部供给外部使用,这也是为什么叫数据仓库,而不是工厂的原因。
2、数据仓库的四大特征
2.1、面向主题的
数据仓库是一般从用户实际需求出发,将不同平台的数据源按设定主题进行划分整合,与传统的面向事务的操作型数据库不同,具有较高的抽象性。面向主题的数据组织方式,就是在较高层次对分析对象数据的一个完整、统一并一致的描述,能完整及统一地刻画各个分析对象所涉及的有关企业的各项数据,以及数据之间的联系。
2.2、集成的
数据仓库中存储的数据大部分来源于传统的数据库,但并不是将原有数据简单的直接导入,而是需要进行预处理。这是因为事务型数据中的数据一般都是有噪声的、不完整的和数据形式不统一的。这些“脏数据”的直接导入将对在数据仓库基础上进行的数据挖掘造成混乱。“脏数据”在进入数据仓库之前必须经过抽取、清洗、转换才能生成从面向事务转而面向主题的数据集合。数据集成是数据仓库建设中最重要,也是最为复杂的一步。
2.3、稳定的
数仓的数据是记录已经发生的数据,并且是为决策提供依据的数据,是不允许进行修改的。即数据保存到数据仓库后&#