paper10 2018Efficient Parallel Skyline Query Processing for High-Dimensional Data

m0_37753327

于 2019-02-18 17:08:07 发布

阅读量257

点赞数

分类专栏：二星论文

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37753327/article/details/87112615

版权

二星论文专栏收录该内容

2 篇文章 0 订阅

订阅专栏

没看懂，等后面需要对hadoop mapreduce详细操作再说吧

三个阶段并行：1）将输入数据集划分为相同大小的块；2）在每个工作者中执行skyline计算并输出skyline候选者；3）合并skyline候选人以获得最终的skyline集
分区方案：基于网格；基于角度。
遇到的问题：1）无法克服数据偏差；2）无法处理高维情形分布式环境中由skyline查询处理引入的data stragglers
Data stragglers refer to the situation where some workers spend signiﬁcantly more time than others to ﬁnish their tasks, due to the reasons such as faulty disk, server failure, and the bad runtime performance of local processing algorithms

本文主要工作

引入了三种划分方法：Z阶曲线；近似skyline候选分布；skyline优势量进行分组
提出有效算法，通过数据索引搜索skyline集合来合并skyline候选，减少冗余优势测试来增强查询处理时间
使用hadoop的mapreduce平台方法

具体地

基于Z曲线的数据分区将高维数据映射到低维对应物，有助于划分高维数据空间均匀
基于优势的数据分区策略能够有效的修剪skyline候选者
引入一种新的基于指数的方法来合并skyline候选人

在这里插入图片描述

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。