墨染丶eye-CSDN博客

原创数据仓库——聚集

在对性能不断探索的过程中，聚集是最数据处理工具。通过仔细规划和集成，聚集将队数据仓库性能产生巨大影响。无需针对特定的软件和硬件进行大量的投资，使用在数据仓库中已经存在的工具即可。与导出模式类似，聚集是一种补充性的数据结构，用来加快工作进度。聚集主要是通过来获得改进性能的效果。但是，聚集发挥作用，需要为每个查询选择正确的聚集，还需要为聚集填充数据并确保能够与基本数据模式保持同步。理想的聚集对数仓用户是不可见的，每当需要时才默默地提供支持。

2024-03-31 17:59:09 1106

原创数据仓库——特殊类型的星型模式

核心星型模式包括所有公共属性且支持跨所有类型的分析，特定类型的自定义星型模式包括所有的核心属性以及任何特定类型的属性。为了成功实现核心/自定义设计，需要使用核心维度和每个特定类型的自定义维度之间的公共属性具有一致性。有时存在自定义属性却没有自定义事实的情况，但是自定义事实表仍然可以避免分析意外。物理实现可以采用独立且不同的核心和自定义表的方式。或者使用数据库视图来实现。异构维度属性能通过设计多个维度表来处理，核心维度包含所有公共属性；自定义维度包含核心属性和特定类型的属性。

2024-03-31 12:42:23 1128

原创数据仓库——事实表

累积快照事实表用来跟踪通过一系列处理步骤的个体项的进展情况，用于研究多数过程中里程碑或者事件的经过时间。事实表快照在确定的时间间隔中对问题的度量进行抽样，这样就可以容易地研究问题的度量值，而不需要聚集长期的事务历史。状态度量，通常可以从事务历史中构造出来，然而如果事务历史延伸到很远的过去，或者必须计算许多事务的状态，监控状态将是低效的办法。间隔时间的研究要求关联多个状态，在事务模型中，每个状态变化都将记录在事实表的不同行中。：度量一系列事务的效果称为状态度量，当状态度量很重要时，事务事实表是无效率的。

2024-03-28 22:22:04 1418

原创数据仓库——雪花模式以及层次递归

通常在维度中确定多重层次结构，每一个层次结构包含维度的所有属性，但将属性组织起来的方式不同。查询事实时，通过在层级的下一个级别中添加一个维度属性来完成向下钻取，上钻即通过去除当前层次结构级别的属性而开展的。可以完全不用借助层次结构来添加维度细节信息的两个特性使之成为可能，首先，属性的基数或者给定的实例值的数量，不要确定它属于那个层次结构，其次在多个双亲中能找到一些实例值。重复的属性被放置到一个单独的支架表中，该表有自己的代理键，在原始的维度中，迁移属性被替换为引用支架表的一个或多个外键。

2024-03-23 23:20:54 1325

原创数据仓库——大维度问题

由于数据量很大，很多包含大维度的数据仓库功能可能会很慢，效率很低，需要设计有效的方法，原则正确索引或者采用其他优化技术处理以下问题。，历史数据库视图，创建不同的维度表视图来表示每个角色，采用适当的外键列将事实表与每个视图连接。连接选择，对于表本身来说不是问题，然而这可能导致混淆，并且可能为自动建立查询的商业智能工具带来问题。，虽然该方法解决了数据管理员提供的问题，但也带来的一系列的问题。大维度通常拥有多层次的结构，不同的业务需要的不同属性可能不同。业务过程的度量可以包含维度的多个实例。

2024-03-23 23:19:49 911 1

原创数据仓库——维度表更新

进入维度表中的信息，在操作系统中仍有可能发生改变，在维度设计方案时，确定数据源的变化情况在维度表中如何表示非常重要，这一想想称为缓慢变化的维度，简称缓慢变化维。几乎所有的对维度表的修改都属于前两类修改，第一类是最常见的，第二类修改保留了历史数据。分析型需求偶尔需要保护其原始状态，对修改的属性，什么事情也不做。当需要支持对维度值特定时间分析，与事实无关的时采用时间戳维度。当需求冲突，需要采用多种响应方式时，采用混合技术。

2024-03-23 23:18:52 765

原创数据仓库——维度表一致性

一致性矩阵可以作为实现蓝图，指明了所有事实表连接的位置，这允许独立地实现每一个事实表，并能可信地与那些已经存在的事实表协同工作。更好的描述一致性维度方式是采用矩阵图，列代表核心一致性维度，行代表不同的事实表，可通过在适当的交叉点放置检查标志来阐明一致性。一致性维度是维度建模的关键，缺乏一致性，就难以对数据仓库开展横向钻取分析，将失去协同增效的可能，并且将会形成信息孤岛。另一方面，如果在开发一致性维度集之前实现增量开发的方法，这样的框架将不可避免地陷入不一致的陷阱。

2024-03-23 23:18:09 1078

原创数据仓库——维度表特性

例如考虑是否具有自然的亲和性，或者在不同环境中是否有关系，或者那些趋向于共享稳定关系的属性可能被储存在一起，或者那些仅存在事件、事务或条件等情况下相关的属性，可以将他们归入不同的事实表中，存在疑惑不定时，可以考虑不同设计方法的可浏览性。当他们的关系由事务或活动来决定，并且存在于不同的环境中，应该将他们放置在不同的维度表中。维度属性分组到维度中，用于表示引用信息的主要分类。与实体关系模型不同，维度模型不能揭示相互关联的属性之间的关系，上下文关系易于传递给事实表，而天然存在的相关性则由维度表中共存的属性表示。

2024-03-23 23:16:57 1426

原创数据仓库——OLAP

联机分析处理OLAP是一种软件技术，它使分析员，经理，主管人员，能够通过快速的，一致的和交互的访问来获取并理解各种可能信息视图的数据，这些信息由原始数据转换而成，用来反映一个企业实际的维度。

2024-03-15 13:37:38 326

原创数据仓库--关系建模和维度建模

专业数据仓库面临的问题是数据仓库中数据库设计的基本模型选取问题，广泛采用的数据库设计模型有两种，关系型和多维型。

2024-03-11 22:29:08 354

原创数据仓库--数据

来自于企业外部系统的数据，通常是以非结构化、不可预测的格式进入企业的。

2024-03-10 18:06:26 324 1

原创数据仓库--迁移到体系结构化环境

只需要找出企业所具有的最好的数据最实时最精确最完备与外部数据源最近最具有结构兼容性。

2024-03-10 18:04:42 455 1

原创数据仓库--数据分析

指从一个汇总数据开始麻将该汇总数据分解成一组更细致的汇总数据。通过获取汇总数据下的细节数据，管理者可以知道究竟正在发生什么事，特别是汇总数据在哪里出现异常。汇总数据可能处于也可能不处于即将进行分析所需要的合适的粒度级，为了进行DSS处理，需要在数据的细节程度和对总数据之间进行权衡。汇总数据是未来分析的基础，并且由于它的存在，不必进行重复分析，应该将汇总数据作为DSS环境的主要部分。汇总数据永远是计算过程的结果，任何情况下都不存在孤立的汇总数据。DSS分析员必须取得汇总数据、理解用来产生汇总数据的过程。

2024-03-10 18:03:49 426 1

原创数据仓库--分布式

局部系统和全局数据的需求之间映射的定义是集中式的，而不是局部的。全局数据仓库的范围是在企业级集成的业务，包含历史数据以及必须在企业级继承的信息，全局数据可能来源于操作型系统，但通常来源于局部数据仓库。就数据层来说，全局数据仓库并不符合典型的数据仓库结构，细节数据存在于分支机构，轻度综合数据存在于集中全局层。局部数据仓库包含的是在局部站点上的历史的和集成的数据，局部数据仓库间的数据或数据结构不需要协调一致。数据导入到全局数据仓库时有一个简单的数据转换。原则上局部数据应局部使用，全局数据应全局使用。

2024-03-10 14:09:06 470 1

原创数据仓库--粒度与技术

数据仓库中数据的恰当粒度是数据开发者需要面对的一个重要的问题,粒度确定得合理,设计和实现中其余方面就可以进行得非常顺畅。

2024-03-09 22:52:14 287 1

原创数据仓库——设计

数据仓库需求只有在已经装载部分数据并开始使用时才能弄清楚数据仓库是在启发方式下建造的。

2024-03-09 12:25:37 910 1

原创数据仓库——环境

数据仓库是一个面向主题的、集成的、非易失的、随时间变化的用来支持管理人员决策的数据集合。

2024-03-08 23:50:29 2319 3

原创数据仓库——决策支持型系统

分析型环境又称决策支持系统（Decision-making Support System，DDS）信息型和决策支持型系统处理核心–数据仓库。

2024-03-07 07:28:23 461 1

原创 Hive on Spark 详解（附安装包）

【代码】【无标题】

2024-01-28 00:06:48 300

原创 Java枚举类型

*** public 限定词* enum 枚举关键字* Color 枚举类型名称/*** WHITE, BLACK, RED 枚举类型常量用逗号分割* 都拥有一个名称与一个值* 通常都是大写字母命名多个单词之间使用下划线分割。

2023-09-16 16:46:04 47 1

原创 Java设计模式学习笔记

软件实体应当对扩展开放对修改关闭(Software entities should be open to extensions and closed to modifications)

2023-09-13 21:55:22 98 1

原创 JAVA FTP CLIENT READ TIME OUT 异常

中间经过的网络设备过多 setControlKeepAliveReplyTimeout 从5000改成10000。

2023-08-10 17:55:54 220 1

原创 linux下MAVEN的安装配置

【代码】linux下MAVEN的安装配置。

2023-08-02 22:52:45 122 1

原创爬取某度某吧?高通过率百度旋转验证码逆向实现

爬取某度某吧?高通过率JS逆向旋转验证码实现

2023-07-29 19:54:45 1392 2

原创 mogoDB使用

【代码】mogoDB使用。

2023-06-30 21:38:52 32

原创浏览器架构

详见 http://www.w3.org/TR/html4/strict.dtd。

2023-06-30 00:15:23 45

原创 git遇到的问题

git遇到的问题提交了大文件到本地仓库没办法提交到远程复制下本地的文件把本地文件回滚到远程仓库的版本把副本改名提交上去搞定

2023-06-28 20:48:19 33 1

原创虚拟机异常关闭修复磁盘

翻到最后查看损坏的磁盘[XFS]里面是dm-0。输入命令journalctl查看系统日志。

2023-06-26 16:48:03 115 1

原创 JAVA多线程

实现方式实现方式可扩展性返回值继承Thread类简单不强无实现Runnable接口简单较强无实现Callable接口并创建FutureTask对象接收其返回值较麻烦较强可以获取返回值实现方式实现方式可扩展性返回值继承Thread类简单不强无实现Runnable接口简单较强无实现Callable接口并创建FutureTask对象接收其返回值较麻烦较强可以获取返回值修饰说明作用范围Method所有线程执行此方法都需要先获取锁才能执行。

2023-06-12 01:08:36 77

原创 2.flink整体构成

flink整体构成作业管理器(JobManager):管理者负责管理调度不考虑高可用只能有一个任务管理器(TaskManager):工作者负责执行任务处理数据可以有一个或者多个作业管理器(JobManager)任务管理和调度的核心控制应用执行的主进程组件JobMaster 作用是处理单独的作业(Job) 每个Job都有一个自己独立的JobMaster JobMaster接收需要执行的应用1JobMaster将作业图(JobGraph)

2022-04-05 17:33:52 2445

原创 1.Flink简介以及应用场景

简介是一个框架和分布式处理引擎用于对有界和无界数据流进行状态计算基于流的世界观一切都是由流组成的离线数据是有界的流实时数据是一个没有界限的流这就是所谓的有界流和无界流安装tar -zxvf flink-1.11.2-bin-scala_2.12.tgz -C /opt/module/ cd /opt/module/flink-1.11.2启动 bin/start-cluster.shFlink流处理apienvironmentsourcetransformap

2022-04-05 17:32:39 2624

数据仓库基本概念-思维导图

数据仓库是专为支持企业或组织决策分析而构建的大规模数据存储和管理系统。它集中存储了来自不同数据源的数据，经过清洗、整合和转换后，以统一、一致和易于查询的格式存储在仓库中。数据仓库的核心特点包括面向主题、集成性、时变性和非易失性。它不同于传统的操作型数据库，更注重历史数据的存储和复杂分析查询的支持。在数据仓库中，数据通常按照主题组织，如销售、客户、产品等，使得分析人员能够更方便地获取和分析与特定业务主题相关的数据。此外，数据仓库的集成性要求数据在存储前经过清洗和整合，确保数据的一致性和准确性。同时，由于业务环境和市场条件的变化，数据仓库需要能够随时间更新数据，以反映最新的业务情况。最后，数据仓库的数据一旦存储，通常不会被修改或删除，以保证数据的稳定性和历史可追溯性。数据仓库的架构通常包括数据源层、数据存储和管理层以及数据访问层。数据源层负责收集来自不同业务系统的数据，数据存储和管理层则使用高效的数据存储技术来管理和维护数据，而数据访问层则提供多种分析工具和接口，支持用户进行数据查询和分析。数据仓库的建设需要经过需求分析、概念设计、逻辑设计和物理设计等多个阶段，以确保其能够满足

2024-03-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人