paper10 2018Efficient Parallel Skyline Query Processing for High-Dimensional Data

没看懂,等后面需要对hadoop mapreduce详细操作再说吧

  • 三个阶段并行:1)将输入数据集划分为相同大小的块;2)在每个工作者中执行skyline计算并输出skyline候选者;3)合并skyline候选人以获得最终的skyline集

  • 分区方案:基于网格;基于角度。

  • 遇到的问题:1)无法克服数据偏差;2)无法处理高维情形分布式环境中由skyline查询处理引入的data stragglers
    Data stragglers refer to the situation where some workers spend significantly more time than others to finish their tasks, due to the reasons such as faulty disk, server failure, and the bad runtime performance of local processing algorithms

本文主要工作

  • 引入了三种划分方法:Z阶曲线;近似skyline候选分布;skyline优势量进行分组
  • 提出有效算法,通过数据索引搜索skyline集合来合并skyline候选,减少冗余优势测试来增强查询处理时间
  • 使用hadoop的mapreduce平台方法

具体地

  • 基于Z曲线的数据分区将高维数据映射到低维对应物,有助于划分高维数据空间均匀
  • 基于优势的数据分区策略能够有效的修剪skyline候选者
  • 引入一种新的基于指数的方法来合并skyline候选人

在这里插入图片描述

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值