数据仓库概述

数据仓库概述

数据仓库(Data Warehouse),简称DW或DWH,是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反应历史变化(Time Variant)的数据集合,用于支持管理、运营决策。

  • 面对主题的:数据仓库里的数据面向主题作为大分类,例如用户分析主题、流量分析主题等等。这种主题往往也是我们处理数据的目的。
  • 集成的:数据仓库的数据不只是通常数据库表里写下的业务数据,也记录下了用户行为相关的埋点数据等,例如用户访问的日志数据等。数据仓库的数据是由多种不同形式的数据整合而成的。
  • 相对稳定的:数据仓库里的数据并不进行频繁修改,而是定期拉取数据后进行分析用。即使业务数据的状态发生了更新,也只是得到更新前后的两种数据,而不是修改数据仓库的数据。
  • 反映历史变化的:正如第三条所述,数据若在不同时间发生变化,数据仓库并不会跟着一起变化,而是会记录不同时间的两条数据,这可以反映某种业务的变化。例如,订单从已发货到已接收,数据仓库就会把这两条数据都放到里面,并且可以根据时间看出他们的历史变化。

数据库和数据仓库

1. 数据库

数据库一般是指一些数据库软件,如mysql, oracle等。这种数据库的普遍使用场景就是联机事务处理(OLTP, OnLine Transaction Processing)。简单来说,OLTP可以完成以下工作:

  • 时刻保持联机在线状态,并且可以进行实时数据的增删改查以及响应。
  • 可以实现强大的事务控制。

2. 数据仓库

随着业务运行时长增长,会出现以下两个问题:

  • OLTP的速度由于数据量的增长会越来越慢
  • 对越来越大的数据量进行分析会耗费很多运算和IO资源,导致影响正常的OLTP操作

所以,我们将OLTP的数据定期导入到其他的数据库,并且对该数据库专门用于长时间跨度数据的数据分析与统计。这就是数据仓库。

数据仓库的主题

数据仓库的主题,指的是数据根据业务围绕着的主题进行的逻辑分类。

例如,对于电商来说,大概有以下主题:总体运营指标分析、网站流量指标分析、客户价值指标分析等等。各种形式的数据根据业务主题逻辑分类,进行进一步的数据分析和统计。

数仓名词解释

1. 实体

实体是指依附的主体,就是我们分析的一个对象,比如我们分析商品的销售情况,如华为手机近半年的销售量是多少,那华为手机就是一个实体;我们分析用户的活跃度,用户就是一个实体。当然实体也可以现实中不存在的,比如虚拟的业务对象,活动,会员等都可看做一个实体。

实体的存在是为了业务分析,作为分析的一个筛选的维度,拥有描述自己的属性,本身具有可分析的价值。

2. 维度

维度就是看待问题的角度,分析业务数据,从什么角度分析,就建立什么样的维度。所以维度就是要对数据进行分析时所用的一个量,比如你要分析产品销售情况,你可以选择按商品类别来进行分析,这就构成一个维度,把所有商品

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 数据仓库知识体系是指在数据仓库领域中所需掌握的相关知识,这些知识通常包括数据仓库架构与模型、ETL工具、数据挖掘算法、数据可视化工具、数据质量管理等多个方面。 数据仓库架构与模型是搭建整个数据仓库的基础,在这个领域中需要掌握的知识包括维度建模、多维数据模型、实体关系图等等。 ETL工具是指数据仓库中专门用来进行数据抽取、转换和加载的软件工具,这也是数据仓库中最核心的部分之一。常见的ETL工具包括Informatica、SSIS等等。 数据挖掘算法作为数据仓库领域中的一项核心技术,主要是指在大规模数据处理中运用多种建模算法来发现数据中的价值信息以及隐含规律,并进一步挖掘其潜在的业务价值。 数据可视化工具则是在数据仓库领域中进行数据可视化分析与展现常用的工具,其中包括PowerBI、Tableau以及QlikView等等。通过这些工具可以将数据进行更加直观地展现和表现出来。 数据质量管理则是针对在数据仓库建立及运营过程中存在的数据质量问题进行治理和改进,其中包括数据去重、数据清洗以及数据验证等。 综上所述,数据仓库知识体系包括了多个方面的知识,数据仓库的建立和运营需要综合各方面的知识技能才能够得以顺利完成。 ### 回答2: 数据仓库知识体系 pdf 是一个介绍数据仓库概念和应用的文档,全文涵盖了数据仓库的基本概念、设计方法、建设流程、技术工具等方面。 文档首先介绍了数据仓库的定义和特点,以及与传统数据库的区别。接着,阐述了数据仓库的架构和组成部分,包括数据源、数据抽取、数据转化、数据存储等。同时,还提到了数据仓库的应用领域和价值。 在设计方法方面,数据仓库知识体系pdf详细介绍了维度建模和星型模型的概念及其应用。此外还介绍了数据仓库的规范化设计和ETL设计。 在建设流程方面,文档包括了需求分析、数据清洗、数据建模、数据抽取转换、数据加载等阶段,并详细介绍了每个阶段的工作内容和关键点。 在技术工具方面,文档介绍了数据仓库建设和管理的关键技术工具,包括数据挖掘工具和BI工具等。 总之,数据仓库知识体系pdf涵盖了数据仓库建设的方方面面,是一本非常实用的数据仓库学习和应用指南。 ### 回答3: 数据仓库知识体系 PDF 是一本关于数据仓库概念、实现和运营的书籍。该书主要分为四个部分,包括数据仓库概述数据仓库设计、数据仓库实现和数据仓库运营与管理。 在数据仓库概述部分,书中详细讲解了数据仓库的定义、架构、优势和挑战等方面的内容。读者可以通过本章节了解数据仓库的基本概念和背景,为后续的设计、实现和运营打下基础。 在数据仓库设计部分,书中介绍了数据仓库的建模方法和技术。本章节从业务需求、数据建模和数据仓库设计等方面讲述了数据仓库设计的流程和方法,读者可以通过该章节了解如何进行数据仓库设计。 在数据仓库实现部分,书中介绍了数据仓库的实现方法、数据抽取和转换技术、以及常用的数据仓库工具和平台等方面。本章节详细讲解了如何将设计好的数据仓库实现并提供服务。 在数据仓库运营与管理部分,书中介绍了数据仓库运营的流程和方法,包括数据质量管理、数据安全管理、数据仓库性能优化等方面的内容。读者可以通过本章节了解数据仓库的日常运营和管理的方法和技术。 总的来说,数据仓库知识体系 PDF 是一本非常实用的数据仓库实践指南,适合从事数据仓库设计、实现和运营的从业者和学习者参考。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值