数据仓库概述

数据仓库是面向主题、集成、稳定且反映历史变化的数据集合,用于支持管理和决策。与数据库不同,数据仓库主要用于分析而非实时事务处理。本文深入介绍了数据仓库的主题、名词解释,包括实体、维度、度量、粒度、口径、指标、标签等,并探讨了这些名词之间的关系,以及数据仓库的分层和分层原因。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据仓库概述

数据仓库(Data Warehouse),简称DW或DWH,是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反应历史变化(Time Variant)的数据集合,用于支持管理、运营决策。

  • 面对主题的:数据仓库里的数据面向主题作为大分类,例如用户分析主题、流量分析主题等等。这种主题往往也是我们处理数据的目的。
  • 集成的:数据仓库的数据不只是通常数据库表里写下的业务数据,也记录下了用户行为相关的埋点数据等,例如用户访问的日志数据等。数据仓库的数据是由多种不同形式的数据整合而成的。
  • 相对稳定的:数据仓库里的数据并不进行频繁修改,而是定期拉取数据后进行分析用。即使业务数据的状态发生了更新,也只是得到更新前后的两种数据,而不是修改数据仓库的数据。
  • 反映历史变化的:正如第三条所述,数据若在不同时间发生变化,数据仓库并不会跟着一起变化,而是会记录不同时间的两条数据,这可以反映某种业务的变化。例如,订单从已发货到已接收,数据仓库就会把这两条数据都放到里面,并且可以根据时间看出他们的历史变化。

数据库和数据仓库

1. 数据库

数据库一般是指一些数据库软件,如mysql, oracle等。这种数据库的普遍使用场景就是联机事务处理(OLTP, OnLine Transaction Processing)。简单来说,OLTP可以完成以下工作:

  • 时刻保持联机在线状态,并且可以进行实时数据的增删改查以及响应。
  • 可以实现强大的事务控制。

2. 数据仓库

随着业务运行时长增长,会出现以下两个问题:

  • OLTP的速度由于数据量的增长会越来越慢
  • 对越来越大的数据量进行分析会耗费很多运算和IO资源,导致影响正常的OLTP操作

所以,我们将OLTP的数据定期导入到其他的数据库,并且对该数据库专门用于长时间跨度数据的数据分析与统计。这就是数据仓库。

数据仓库的主题

数据仓库的主题,指的是数据根据业务围绕着的主题进行的逻辑分类。

例如,对于电商来说,大概有以下主题:总体运营指标分析、网站流量指标分析、客户价值指标分析等等。各种形式的数据根据业务主题逻辑分类,进行进一步的数据分析和统计。

数仓名词解释

1. 实体

实体是指依附的主体,就是我们分析的一个对象,比如我们分析商品的销售情况,如华为手机近半年的销售量是多少,那华为手机就是一个实体;我们分析用户的活跃度,用户就是一个实体。当然实体也可以现实中不存在的,比如虚拟的业务对象,活动,会员等都可看做一个实体。

实体的存在是为了业务分析,作为分析的一个筛选的维度,拥有描述自己的属性,本身具有可分析的价值。

2. 维度

维度就是看待问题的角度,分析业务数据,从什么角度分析,就建立什么样的维度。所以维度就是要对数据进行分析时所用的一个量,比如你要分析产品销售情况,你可以选择按商品类别来进行分析

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值