skyline查询处理 BNL算法

最新推荐文章于 2023-05-18 14:24:04 发布

more_ugly_less_bug

最新推荐文章于 2023-05-18 14:24:04 发布

阅读量7.6k

点赞数 4

分类专栏：信息检索

本文链接：https://blog.csdn.net/more_ugly_less_bug/article/details/68485678

版权

5 篇文章 2 订阅

订阅专栏

查找出数据库中所有的SP（skyline point）点最粗鲁暴力的办法，是将所有的点两两比较，显然这是个愚蠢的办法。而BNL（block-nested-loops）算法是在这个愚蠢办法的基础之上改进，算法质量实现了大幅的提升。

BNL算法，姑且翻译为块嵌套环算法。该算法首先在内存中开辟有一块窗口，用于存放从文件中读入的疑似是SP的数据。还有临时文件T，当内存中的窗口满时，原本需要插入到窗口中的点将被保存在临时文件中。算法的流程如下：

1、从存放需要查询的数据的文件F中，读取一个数据点p，与窗口中的所有点比较（如果窗口为空，则直接插入），根据比较结果不同执行下面三种操作。

2、当所有点都读取完并执行完上述操作时，窗口中在临时文件中加入第一个点之前就已经加入的点作为SP输出。将临时文件T作为数据来源，即作为存放需要查询的数据的文件F，新建一个空白的临时文件T'，从1开始循环执行该过程。知道所有的点或者被丢弃，或者被作为SP输出。

设有数据集P1~P5，每个数据有两个维度，价格和距离，需要价格和距离都越小越好的数据。查询skyline点的过程如下所示：

算法的优化策略是减小点与点之间的比较次数。第一个方法是将窗口组织为一个自组织表。当窗口中某个点出现了支配其他点的情况时，那这个点也更有可能支配其他点，所以将这个点放在窗口最前面，这样每次新输入的点进行比较时，优先与这个点比较，非SP点可以尽早淘汰。

优点：BNL算法的最大优点是它的简单性和普遍性, 对于各种数据分布、各种大小的数据集,BNL算法都可以直接应用而不需对数据进行任何索引或预处理。它满足 skyline 计算算法对正确性、公平性的要求。

缺点：当 skyline 集较大或内存很小的时候, 就需要多个循环才能计算出所有的结果, 导致多次文件输入/输出存取, 花费很长的时间。此外, 由于在每次循环之后, 只有少量在溢出文件产生之前被插入窗口的点才可以被输出给用户, BNL算法的渐进性并不好, 不能应用于在线处理。

参考资料：

skyline 查询处理，魏小娟, 杨婧, 李翠平, 陈红

skyline 计算研究综述，朱琳, 关佶红,周水庚

鸣谢！

关注