[论文笔记]Graph Cube: 基于数据仓库和OLAP多维网络

最新推荐文章于 2024-05-20 08:09:17 发布

MusicLEEE

最新推荐文章于 2024-05-20 08:09:17 发布

阅读量683

点赞数 1

分类专栏：论文笔记

本文链接：https://blog.csdn.net/qq_39731130/article/details/114383002

版权

论文笔记专栏收录该内容

7 篇文章

订阅专栏

本文介绍了一种新的数据仓库模型——GraphCube及其联机分析处理方法Crossboid。GraphCube将传统数据立方体与多维网络相结合，既保留了数据立方体的优势，又能够处理个体间的关系。Crossboid则解决了多个方体联合分析的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Graph Cube: On Warehousing and OLAP Multidimensional Networks

研究背景

数据仓库是一种为企业进行决策制定的工具。区别于数据库，数据仓库的主要功能并非保存数据，而是为数据分析师，战略制定者获取有价值信息提供服务的。

在这里插入图片描述
如上图所示，数据仓库的基本模型是数据立方体(Cube)，数据立方体由多个方体(Cuboid)组成。每个方体可以表示为一张表，属性为方体的维度，表中的每行数据称为元组(Cell)。

以往人们在使用数据仓库时，总是根据维度需求在数据立方体中计算出单个所需的方体，以便进行数据分析或数据挖掘。然而当我们需要对多个方体进行联合分析时，传统的数据仓库模型便无法做到了。除此之外，传统的方体只关注元组的属性和度量，而忽略了不同元组之间的关系。当我们想分析个体之间的联系时，也是很不方便的。

作者基于上述问题，提出了新的数据仓库模型——图数据立方体(Graph Cube)，并在此基础上提出了解决多个方体联合分析的方法——跨方体(Crossboid)。

Graph Cube 模型

首先介绍一下多维网络(Multidimensional Network)。多维网络的示意图如下所示。

在这里插入图片描述
可以看到，多维网络就是图与表的结合。图中顶点表示单个个体，个体拥有多个属性(ID, Gender, Location, Profession, Income)，其中ID为个体的主键，标记在顶点的内部。图中边表示个体之间的关系。

图数据立方体技术实质上就是将传统的数据立方体与多维网络进行结合。在图数据立方体中，上图的多维网络就是它的Base Cuboid。图数据立方体的示意图如下所示。

在这里插入图片描述
在上图中，除了最下方的Base Cuboid，其余的方体称为聚合网络(Aggregation Network)。下图为聚合网络与传统方体的聚合表的对比。

在这里插入图片描述

(Gender)方体
在这里插入图片描述

(Gender, Location)方体

可以看到图数据立方体的方体——聚合网络保存了个体之间的关系。图中顶点内的数字表示在Base Cuboid中对应的个体数；图中边上的数字表示在Base Cuboid中对应个体之间的边数。

Graph Cube的联机分析处理

联机分析处理(OLAP)，是人们对数据仓库最主要的操作方式，在模型中就是根据要求计算出相应的方体，将结果方体以表格的形式展示给数据分析师。
在图数据立方体中的OLAP分为两种形式：基于单个方体的查询(Cuboid Query)，基于多个方体的查询(Crossboid Query)。

基于单个方体的查询

该查询形式与一般的数据仓库查询形式基本相同，系统根据用户给定的属性计算出图数据立方体中对应的方体，将聚合网络返回给用户。下图为图数据立方体中的各个方体。
在这里插入图片描述
方体的聚合网络构建算法如下所示。

在这里插入图片描述
算法通过哈希函数构造属性与顶点的关系。对于查询属性相同的个体，将被映射到相同的顶点。
首先生成聚合网络的顶点。3-8行循环遍历Bsae Cuboid的多维网络中的所有顶点，即所有个体。若映射的顶点不存在，则创建新的顶点，并为顶点赋予权值1；若映射的顶点已存在，则为顶点的权值加1。
接着生成聚合网络的边。9-15行循环遍历Bsae Cuboid的多维网络中的所有边，即个体间的关系。根据边的首尾顶点，找到对应聚合网络中的两个顶点。若两顶点间不存在边，则创建边，并为边赋予权值1；若已存在边，则为边的权值加1。
最后将生成的聚合网络返回给用户。