数据仓库概述
数据仓库(Data Warehouse),简称DW或DWH,是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反应历史变化(Time Variant)的数据集合,用于支持管理、运营决策。
- 面对主题的:数据仓库里的数据面向主题作为大分类,例如用户分析主题、流量分析主题等等。这种主题往往也是我们处理数据的目的。
- 集成的:数据仓库的数据不只是通常数据库表里写下的业务数据,也记录下了用户行为相关的埋点数据等,例如用户访问的日志数据等。数据仓库的数据是由多种不同形式的数据整合而成的。
- 相对稳定的:数据仓库里的数据并不进行频繁修改,而是定期拉取数据后进行分析用。即使业务数据的状态发生了更新,也只是得到更新前后的两种数据,而不是修改数据仓库的数据。
- 反映历史变化的:正如第三条所述,数据若在不同时间发生变化,数据仓库并不会跟着一起变化,而是会记录不同时间的两条数据,这可以反映某种业务的变化。例如,订单从已发货到已接收,数据仓库就会把这两条数据都放到里面,并且可以根据时间看出他们的历史变化。
数据库和数据仓库
1. 数据库
数据库一般是指一些数据库软件,如mysql, oracle等。这种数据库的普遍使用场景就是联机事务处理(OLTP, OnLine Transaction Processing)。简单来说,OLTP可以完成以下工作:
- 时刻保持联机在线状态,并且可以进行实时数据的增删改查以及响应。
- 可以实现强大的事务控制。
2. 数据仓库
随着业务运行时长增长,会出现以下两个问题:
- OLTP的速度由于数据量的增长会越来越慢
- 对越来越大的数据量进行分析会耗费很多运算和IO资源,导致影响正常的OLTP操作
所以,我们将OLTP的数据定期导入到其他的数据库,并且对该数据库专门用于长时间跨度数据的数据分析与统计。这就是数据仓库。
数据仓库的主题
数据仓库的主题,指的是数据根据业务围绕着的主题进行的逻辑分类。
例如,对于电商来说,大概有以下主题:总体运营指标分析、网站流量指标分析、客户价值指标分析等等。各种形式的数据根据业务主题逻辑分类,进行进一步的数据分析和统计。
数仓名词解释
1. 实体
实体是指依附的主体,就是我们分析的一个对象,比如我们分析商品的销售情况,如华为手机近半年的销售量是多少,那华为手机就是一个实体;我们分析用户的活跃度,用户就是一个实体。当然实体也可以现实中不存在的,比如虚拟的业务对象,活动,会员等都可看做一个实体。
实体的存在是为了业务分析,作为分析的一个筛选的维度,拥有描述自己的属性,本身具有可分析的价值。
2. 维度
维度就是看待问题的角度,分析业务数据,从什么角度分析,就建立什么样的维度。所以维度就是要对数据进行分析时所用的一个量,比如你要分析产品销售情况,你可以选择按商品类别来进行分析