了解数据仓库

数据仓库

什么是数据仓库

数据仓库(Data Warehouse)是一个面向主题的、集成的、稳定的且随时间变化的数据集合,用于支持管理人员的决策

基础知识

  1. 事实表
    事实表是指保存了大量业务数据的表,或者说保存了一些真实的行为数据的表。例如:销售商品所产生的订单数据。
  2. 维度表
    维度指的就是一个对象的属性或者特征,例如:时间维度,地理区域维度,年龄维度这是维度的概念。维度表里面存放的其实就是刚才所说的那些维度相关的信息。例如:商品表。
  3. 数据库三范式
  • 第一范式(1NF):数据库表的每一列都是不可分割的原子数据项。

不满足

学生ID姓名性别地址
001王小慕北京市朝阳区望京街10号

满足

学生ID姓名性别省份城市街道
001王小慕北京市朝阳区望京街10号
  • 第二范式(2NF):在满足1NF的基础上,数据库表中每一列都和主键相关,不能只和主键的某一部分相关(针对联合主键而言)。

不满足 因为分数依赖于学生ID和课程,但是班级和班主任只依赖于学生ID

学生ID班级班主任课程分数
001计科1王小慕200198

满足

学生ID班级班主任
001计科1王小慕
学生ID课程分数
001200198
  • 第三范式(3NF):在满足地2NF的基础上,要求一个数据库表中不包含已在其它表中包含的非主键字段,针对刚才满足第二范式的表,其实还可以进行拆分,班主任可以有班级推导出来。

满足

学生ID班级班主任
001计科1王小慕
班级班主任
计科1王小慕
学生ID课程分数
001200198
  1. 星型模型vs雪花模型
    对于雪花模型,维度表的设计更加规范,一般符合3NF;而星型模型,一般采用降维的操作,利用冗余来避免模型过于复杂,提高易用性和分析效率
    冗余:雪花模型符合业务逻辑设计,采用3NF设计,有效降级数据冗余;星型模型的维度表设计不符合3NF,反规范化,维度表之间不会直接相关,牺牲部分存储空间。
    性能:雪花模型由于存在维度间的关联,采用3NF降低冗余,通常在使用过程中,需要连接更多的维度表,导致性能偏低;星型模型违反3NF,采用降维的操作将维度整合,以存储空间为代价有效降低维度表连接数,性能比雪花模型高。
    实际工作中多采用星型模型,尽可能的多构建一些宽表,以提高数据的查询性能和方便查询。

数据仓库分层设计

数据仓库分层

  1. ODS层:原始数据层,数据源中的数据,采集过来之后,原样保存。
  2. DWD层:明细数据层,这一层是对ODS层的数据进行清洗,解决一些数据质量问题和数据的完整度问题。
  3. DWS层:这一层是对DWD的数据进行轻度聚合汇总,生成一系列的中间表,提升公共指标的复用性,减少重复加工,并且构建出来一些宽表,用于提供后续的业务查询。
  4. APP层,根据业务需要,由前面三层的数据统计而出的结果,可以直接提供查询展现,一般会把APP层的数据导出到MySQL中供线上系统使用,提供报表展示,数据监控及其它功能。也可以称为DM层。

DWD层对数据进行清洗的时候,一般需要遵循以下原则:

  • 数据唯一性校验(通过数据采集工具采集的数据会存在重复的可能性)
  • 数据完整性教研(采集的数据中可能会出现缺失字段的情况,针对缺失字段的数据建议直接丢掉,如果可以确定是哪一列缺失也可以进行补全,可以用同一列上的前一个数据来填补或者同一列上的后一个数据来填补)
  • 数据合法性校验-1(针对数字列中出现了null,或者-之类的异常值,全部替换为一个特殊值,例如0或者-1,这个需要根据具体的业务场景而定)
  • 数据合法性校验-2(针对部分字段需要校验数据的合法性,例如:用户的年龄,不能是负数)

典型的数据仓库系统架构

下图是一个典型的企业数据仓库系统,通常包含数据源,数据存储与管理,数据的访问三个部分。在实际工作中,数据仓库分为离线数据仓库和实时数据仓库
数据仓库系统

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 数据仓库是一个专门存储企业级数据的系统,通过多个来源数据的提取、清理、转换等过程,将数据集成到一个数据仓库中,便于企业用户对数据进行分析和决策。数据仓库的建设需要参考多个因素,包括数据内容、数据来源、数据质量、数据集成方案、存储方案等。 在CSDN学习数据仓库方面,可以首先学习数据仓库的概念和基本构成,理解数据仓库与传统的数据库系统的差异,并深入掌握数据仓库的设计、建设和维护方法。此外,还可以学习数据仓库与商业智能、数据分析等相关领域的联系和应用,了解数据仓库在大数据时代下的发展趋势和未来趋势。 学习数据仓库需要具备扎实的数据库和数据分析基础知识,同时需要掌握相关技术工具,如ETL工具、OLAP工具、数据可视化工具、数据质量管理工具等。还需要了解数据安全和隐私保护等相关知识,以及数据仓库在企业中的管理和应用实践经验。 CSDN提供了丰富的数据仓库学习资源,包括课程、教程、文章、案例以及论坛等,可以通过这些资源来学习数据仓库相关知识和技能,提高自己在数据分析和商业决策方面的能力和水平。 ### 回答2: 数据仓库是企业中常用的一种技术,它主要通过提供一个集成的、存储在中央位置的数据资源,来支持数据的分析和决策。数据仓库需要利用ETL工具对源系统中的数据进行抽取、转换和加载,以使数据在数据仓库中得到整合和清理。通过建立数据仓库,企业可以提高数据的一致性、准确性和可信性,并能在决策时更准确地取得数据支持。 CSDN提供了数据仓库相关的学习内容,包括数据仓库的概念、架构、设计、模型、管理以及数据仓库中的数据挖掘、OLAP、BI等方面的知识。学习数据仓库需要具备一定的数据库和数据分析的基础,而CSDN为用户提供了一系列数据仓库培训视频、文献资料、社区论坛等资源,帮助用户提高数据仓库的建设和应用技巧。 此外,CSDN还提供了数据仓库相关的开发工具和技术,如ETL工具、数据集成平台、数据挖掘工具、OLAP分析工具等,这些工具可以帮助用户完成数据的抽取、转换、加载、分析及决策等业务。通过CSDN学习,用户可以在数据仓库技术方面得到全面的帮助,从而提高自身的技术储备和竞争力,实现对企业数据分析和决策能力的跨越式提升。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值