一、数据仓库简介
一、为什么有数仓
1、业务数据存在数据库里面:如MySQL、Oracle、SQL Server里面。但业务数据可能形成挤压,产生大量冷数据,为了避免对业务数据库产生影响,需要将冷数据转移到数据仓库。
2、将历史数据转移到数据仓库,不仅可以减少业务数据库压力,还可以进行数据分析
3、建立数据仓库,使用专门的数据抽取系统,将数据抽取出来,统一各个部门数据,开放接口。数仓面向数据分析,业务数据库面向业务系统
二、什么是数仓
数据仓库(Data Warehouse,DW)
数据仓库主要用于存储冷数据,组织积累的历史数据,使得我们能使用分析方法(OLAP)进行分析,进而辅助决策,构建商业智能
*数据仓库有哪些特点?
1、面向主题。
数据分析前要定好主题(如要分析用户行为特征),要把各种原始数据,相关表进行聚合
分析用户购物习惯:
2、集成
原始数据来源于不同数据源,需要对各个表数据进行标准化,清洗
3、非易失性
一般不允许被修改,只允许查询
4、时变性
数仓会定期(每天)从业务数据库接受、集成新的数据
Q:数仓每天会接受新数据,但它又有非易失性,如何解决矛盾?
A:以时间戳标记版本,新版本时间戳是最新的
三、数据仓库和数据库有哪些区别?
①数据库面向事务设计,属于OLTP(在线事务处理)系统,主要是小批量数据读写;在设计时尽量避免冗余,常采用符合范式规范来设计
数据仓库面向主题设计&