数据仓库海量数据–>OLAP服务器在数秒内回答决策支持查询
因此数仓要支持高校的数据立方体计算技术、存取方法和查询处理技术
1.数据立方体的有效计算
核心:有效计算多维集合上的聚集(分组),每个聚集(分组)用一个方体表示,分组的集合形成定义数据立方体的方体的格。
(1)computer cube操作和维灾难
一种方法是扩充SQL使之包含computer cube操作,这个操作在操作制定的维的所有子集上计算聚集。维灾难:存储空间不足
(2)物化
给定基本方体,方体的物化有三种选择,
不物化:不预先计算任何非基本方体,这样试试计算需要昂贵的多维聚集,运行比较慢
完全物化:预先计算所有方体,需要大量的存储空间来存放预计算的方体
部分物化:有选择的计算整个可能的方体集中一个适当的子集
2.索引OLAP数据
为了有效数据访问,大部分数仓支持索引结构和物化视图。
位图索引:允许在立方体中快速搜索;每个属性都有他自己的位图索引;将连接、聚集和比较操作归结成位算术运算。
连接索引:关系型数据库查询处理;
3.OLAP查询的有效处理
给定物化的视图,查询处理应按照如下步骤进行:
(1)确定哪些操作应当在可利用的方体上执行:
涉及到查询中的选择、投影、上卷(分组)和下钻操作转换成对应的SQL或者OLAP操作。例如
数据立方体的切片和切块对应物化方体上的选择或者投影操作
(2)确定相关操作应当使用哪些物化的方体:
4.OLAP服务器结构:ROLAP、MOLAP、HOLAP的比较
OLAP服务器的物理结构和实现必须考虑数据存放问题。由于OLAP处理的数据仓库服务器额实现包括
(1)关系OLAP(ROLAP)服务器:
这是一种中间服务器,介于关系的后端服务器和客户前端工具之间。他们使用关系的或者扩充关系的DBMS存储并管理数据仓库数据,而OLAP中间件支持其余部分。ROLAP服务器包括每个DBMS后端优化,聚集导航逻辑的实现,附加的工具和服务。
(2)多维OLAP(MOLAP)服务器:这届服务器通过基于数组的多维存储引擎,支持数据的多维视图。他们将多维视图直接映射到数立方体数组结构。
(3)混合OLAP(HOLAP)服务器:混合OLAP方法结合ROLAP和MOLAP技术,得益于ROLAP较大的可伸缩性和MOLAP的快速计算。例如:HOLAP服务器允许将大量的详细数据存放在关系数据库中。
(4)特殊的SQL服务器
一些数据库系统供应商实现了特殊的SQL服务器,提供高级查询语言和查询处理,在制度环境下,在星形和雪花形模式上支持SQL查询。