没看懂,等后面需要对hadoop mapreduce详细操作再说吧
-
三个阶段并行:1)将输入数据集划分为相同大小的块;2)在每个工作者中执行skyline计算并输出skyline候选者;3)合并skyline候选人以获得最终的skyline集
-
分区方案:基于网格;基于角度。
-
遇到的问题:1)无法克服数据偏差;2)无法处理高维情形分布式环境中由skyline查询处理引入的data stragglers
Data stragglers refer to the situation where some workers spend significantly more time than others to finish their tasks, due to the reasons such as faulty disk, server failure, and the bad runtime performance of local processing algorithms
本文主要工作
- 引入了三种划分方法:Z阶曲线;近似skyline候选分布;skyline优势量进行分组
- 提出有效算法,通过数据索引搜索skyline集合来合并skyline候选,减少冗余优势测试来增强查询处理时间
- 使用hadoop的mapreduce平台方法
具体地
- 基于Z曲线的数据分区将高维数据映射到低维对应物,有助于划分高维数据空间均匀
- 基于优势的数据分区策略能够有效的修剪skyline候选者
- 引入一种新的基于指数的方法来合并skyline候选人