数据仓库——聚集

数据仓库基础笔记思维导图已经整理完毕,完整连接为:
数据仓库基础知识笔记思维导图

聚集

在对性能不断探索的过程中,聚集是最强大最、有效的数据处理工具。通过仔细规划和集成,聚集将队数据仓库性能产生巨大影响。无需针对特定的软件和硬件进行大量的投资,使用在数据仓库中已经存在的工具即可。与导出模式类似,聚集是一种补充性的数据结构,用来加快工作进度。聚集主要是通过汇总数据来获得改进性能的效果。

但是,聚集发挥作用,需要为每个查询选择正确的聚集,还需要为聚集填充数据并确保能够与基本数据模式保持同步。

理想的聚集对数仓用户是不可见的,每当需要时才默默地提供支持。理想的聚集也是免维护的,可以自动地建立和维护,不需要ETL开发人员介入。

聚集的基础知识

由于多维数据集首先是一种高性能的数据结构,因此构建汇总多维数据集的聚集几乎没有意义,然而如果原始多维数据集被调整为获得高容量而不是高性能,这样做是有用的。

汇总基本数据

  1. 在基本模式中存储粒度数据
  2. 在聚集中存储预先汇总的数据
  3. 描述聚集模式最方便的方法是描述事实表的粒度,与之相反的是描述什么被汇总
  4. 聚集模式的事实和维度要与基本模式中的事实和维度表示一直,这样才能确保获得一致的结果
  5. 为了性能上获得好处,聚集模式并不需要被优化的查询的粒度完全一致。
  6. 单个聚集并不能为所有查询带来性能方面的好处,可以采用多个聚集以不同的方法对同一个基本模式进行汇总。每个聚集预先跨不同维度计算数据,而不是采用连续级别的汇总,这样可以最大化聚集表能支持查询的数量
  7. 总会有一些查询不能通过聚集获得优化,任何需要访问粒度的查询,都必须被定向到原始星型模式

使用聚集

聚集星型模式中事实和维度属性与基本星型模型中相关的事实和维度属性一致,对利用聚集的查询的重写工作包含替换表名和关键字列。

对于某个给定的查询,在选择星型模式时,要获得最理想的性能,就需要考虑采用在事实表中具有行数最少并且能够回答查询的聚集星型模式。

仅仅允许有经验的开发人员拥有访问聚集的权利。终端用户和没有经验的开发人员仅允许访问基本星型模式。

加载聚集

围绕性能的原则开展设计工作,从原始星型模式构建聚集模式是有意义的,如果发生类型1变化,将导致增量式维度聚集更加困难。

通过采用一致性的概念指导聚集设计,能够保证汇总获得一致的结果,并使重写查询的过程变得尽可能简单。有助于保持ETL过程的简单。

将聚集表的来源定义在基本星型模式上可以确保结构和内容的一致性。

ETL过程中采用的表加载示例
  1. 加载基本维度
  2. 加载一致性上钻
  3. 加载基本事实表
  4. 加载聚集事实表
类型1变化

当基本数据和聚集被顺序加载时,若发生类型1变化,则需要重新加载聚集,而不是对其进行增量更新。

  • 基本模式被更新后,删除并重新建立聚集。这种方法通常要做的处理工作少,一些工具以此方式自定建立聚集表或者多维数据集
  • 在聚集时不使用类型1属性,类型2变化不会引起类似的问题,因为不会改变先前记录事实的环境。

作为聚集的多维数据集

当采用多维数据集存储维度设计时,为获得高性能,其数据集已经警醒过优化,因此没有必要汇总多维数据集。

多数体系结构都采用混合使用星型模式和多维数据集的方式。星型模式易于拓展,而多维数据集易于获得高性能。最佳的方法是利用星型模式存储粒度数据,细节数据,而多维数据集包含高性能的获取结果。这一安排十许多数据仓库实现获得成功的基础,由于都具有维度特性,多维数据集和星型模式存在天然的亲和性。多数维度产品都被建立成为支持从基本星型模式构建和设计多维数据集的方式。

使聚集不可见

聚集模式与数据库索引类似,与索引一样,为使查询更加快捷,聚集模式需要占用一些额外的空间。在利用聚集时需要重写查询,需要加载和维护聚集,同时保持聚集于原始模式的同步。

聚集导航

聚集导航能力消除了再编写查询时,需要开发人员选择基本星型模式或是一个或多个聚集的需要。工具以不同的方式、以结构的不同部分提供此种能力。聚集导航还能够提供其他额外的好处。

用户很难选择使用哪个星型模式组合,所以一般不对终端用户开放聚集,但是,也因此用户构建报表时不能获得聚集所带来的的性能方面的好处。

聚集导航是通用的来描述选择基本星型模式还是一个或多个聚集的术语,完成这种服务的软件产品或功能通常被称为聚集导航。

其他潜在的好处
  • 随意改变聚集,如果没有聚集导航器,在查询中就需要清楚地写明如何利用聚集。在数据库中增加新的聚集时,若要利用它,则需要重写已经存在的查询与报表。并且使随时添加和删除聚集成为可能,当从数据库增加或者删除聚集时,不需要重新考虑存在的报表,聚集导航器可以意识到发生的变化。
  • 离线或在线放置聚集,它可以提供按需使聚集离线的能力,在重建或刷新聚集时,聚集离线时,聚集不可用使性能降低,但是不会停止工作
  • 异构数据库,聚集导航器不只是简单重写SQL,还需要将其定向到不同的物理数据库上,这些数据库可能来自不同的提供商,或者需要将sql转换成另外一种语言,极大地扩展了解决方案的灵活性。
  • 异构前端,理想的聚集导航工具将会重写所有查询,无论查询是由商业智能工具,还是报表工具或命令行SQL实用程序提供的。

建立聚集和维护聚集

不可见聚集的另一部分是处理聚集的自动构建和维护工作。

建立聚集星型模式或聚集多维数据集工具通常会提供用户界面,开发人员可以利用该节点定义所需聚集的特征。聚集或多维数据集的建立工具通常是按照对星型模式和维度数据来建立的,这些产品能理解诸如事实、维度、代理键、自然键、缓慢变化等概念。

允许数据库管理系统维护聚集结构有时需要放弃对聚集维护和更新的完全控制,为了精确控制,如果不愿使用这种自动化方法,通常将建立和维护聚集工作放在ETL过程中。

层次和聚集

属性层次表示了一种存在于维度表数据中的主从关系,与属性间的父子关系不需要钻取数据一样,他们也不需要定义汇总层次。然而多数公户建立的聚集表火多维数据集都能够支持层次,在此情况下,围绕这些关系定义并文档化聚集可能会具有价值。

可选的汇总设计方案

遵循基本模式的维度聚集只是组织汇总存储的一种方式,并且单一表设计可能会带来麻烦。

对基本星型模式进行转换和汇总是一种导出模式而不是聚集,他也能够提供有用的性能好处,利用导出模式的查询与利用基本模式的查询在结构上存在区别。

单一事实表设计的目的是通过将汇总数据和细节数据存储在一起,而不是分别放在不同表中来简化聚集的存储。不要在同一表中存储不同层次的聚集,如果这样做,将会导致双重静思园或者更糟糕的事。需要避免双重计算。

  • 13
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
下面只是目标目录 ├─第1章-Shiro权限实战课程介绍 │ 1-1Shiro权限实战课程介绍.mp4 │ 1-2权限控制和初学JavaWeb处理访问权限控制.mp4 │ ├─第2章-大话权限框架核心知识ACL和RBAC │ 2-1权限框架设计之ACL和RBAC讲解.mp4 │ 2-2主流权限框架介绍和技术选型讲解.mp4 │ ├─第3章-ApacheShiro基础概念知识和架构讲解 │ 3-1Shiro核心知识之架构图交互和四大模块讲解.mp4 │ 3-2用户访问Shrio权限控制运行流程和常见概念讲解.mp4 │ ├─第4章-Springboot2.x整合ApacheShiro快速上手实战 │ 4-1SpringBoot2.x整合Shiro.mp4 │ 4-2快速上手之Shiro认证和授权流程实操上集.mp4 │ 4-3Shiro认证和授权流程和常用API梳理下集.mp4 │ ├─第5章-详细讲解ApacheShirorealm实战 │ 5-1Shiro安全数据来源之Realm讲解.mp4 │ 5-2快速上手之Shiro内置IniRealm实操.mp4 │ 5-3快速上手之Shiro内置JdbcRealm实操.mp4 │ 5-4ApacheShiro自定义Readl实战.mp4 │ 5-5深入Shiro源码解读认证授权流程.mp4 │ ├─第6章-Shiro权限认证Web案例知识点讲解 │ 6-1Shiro内置的Filter过滤器讲解.mp4 │ 6-2Shiro的Filter配置路径讲解.mp4 │ 6-3Shiro数据安全之数据加解密.mp4 │ 6-4Shiro权限控制注解和编程方式讲解.mp4 │ 6-5Shiro缓存模块讲解.mp4 │ 6-6ShiroSession模块讲解.mp4 │ ├─第7章-ApacheShiro整合SpringBoot2.x综合案例实战 │ 7-10使用ShiroLogout和加密处理.mp4 │ 7-1Shiro整合SpringBoot2.x案例实战介绍.mp4 │ 7-2基于RBAC权限控制实战之Mysql数据库设计.mp4 │ 7-3SpringBoot2.x项目框架和依赖搭建.mp4 │ 7-4案例实战之权限相关服务接口开发.mp4 │ 7-5案例实战之用户角色权限多对多关联查询SQL.mp4 │ 7-6案例实战自定义CustomRealm实战.mp4 │ 7-7项目实战之ShiroFilterFactoryBean配置实战.mp4 │ 7-8前后端分离自定义SessionManager验证.mp4 │ 7-9API权限拦截验证实战.mp4 │ ├─第8章-权限控制综合案例实战进阶 │ 8-1实战进阶之自定义ShiroFilter过滤器上集.mp4 │ 8-2实战进阶之自定义ShiroFilter过滤器下集.mp4 │ 8-3性能提升之Redis整合CacheManager.mp4 │ 8-4性能提升之Redis整合SessionManager.mp4 │ 8-5ShiroConfig常用bean类配置.mp4 │ ├─第9章-大话分布式应用的鉴权方式 │ 9-1单体应用到分布式应用下的鉴权方式介绍.mp4 │ 9-2Shiro整合SpringBoot下自定义SessionId.mp4 │ ├─第10章-Shiro课程总结 │ 10-1Apacheshiro从入门到高级实战课程总结.mp4 │ 10-2高级工程师到架构师-解决问题思路+学习方法.mp4 │ └─课件资料.zip
《数据中台架构——企业数据化最佳实践》PDF是一本关于企业数据化的实践指南。该指南介绍了数据中台架构的概念和作用,以及在企业数据化过程中的最佳实践方法。 在这本指南中,首先对数据中台架构进行了详细的介绍。数据中台是一种将企业内外部数据集中管理和应用的架构模式。它通过统一的数据仓库、数据治理和数据服务层,实现了数据的集中管理和共享,提供了高效的数据支持和应用的基础设施。 指南还详细介绍了数据中台的组成部分和关键技术。数据中台包括数据采集、数据清洗、数据仓库、数据治理和数据服务等模块。指南提出了构建数据中台的最佳实践方法,如采用数据湖架构、数据流水线技术和分布式计算等。 此外,指南还强调了数据中台在企业数据化中的重要性和优势。数据中台能够实现数据的一致性和准确性,提供了高质量的数据支持和决策分析能力。它还可以加速企业创新和业务发展,提升企业竞争力和运营效率。 在最后的部分,指南提供了落地数据中台的实践经验和案例分析。通过实际的案例,指南展示了如何根据企业的特点和需求,制定适合的数据中台架构和实施方案。 总之,《数据中台架构——企业数据化最佳实践》PDF是一本详细介绍数据中台架构和最佳实践方法的指南。通过学习这本指南,企业可以了解数据中台的概念和作用,掌握构建数据中台的关键技术和方法,并且通过实践案例的分析,获得落地数据中台的实践经验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值