增量式和分层式k-median算法的实验评估 incexp

最新推荐文章于 2021-05-31 16:21:55 发布

Jemary_

最新推荐文章于 2021-05-31 16:21:55 发布

阅读量846

点赞数

分类专栏：网络通信基站

本文链接：https://blog.csdn.net/Jemary_/article/details/80658824

版权

本文比较了不同增量和分层k-中值算法在不同基准数据集上的运行时间和输出解的质量，发现算法实际效果优于性能保证。实验涉及Arya等人的局部搜索、LP舍入算法、Jain等人的贪心算法等，展示了这些算法在解决方案质量和运行时间上的表现。实验结果显示，Lin等人的算法在质量和效率上优于Mettu和Plaxton的算法。

摘要由CSDN通过智能技术生成

Abstract

在本文中，我们考虑具有可证明性能保证的不同增量和分层k-中值算法，并比较它们在不同基准k-中值数据集上的运行时间和输出解的质量。我们确定这些算法对所有数据集输出的解决方案的质量比其性能保证提供的要好得多。由于一些增量k-中值算法需要k-中值问题的近似解，所以我们还比较了一些现有的k-中值算法的运行时间和这些数据集上获得的解的质量。

1 Introduction

一家公司正在建设设施，以便为其客户提供服务。由于资金有限，目前只能建设一些，但打算在未来扩大以改善其客户服务。它的扩张计划是一系列的设施，它将为它提供资金。它是否可以计划未来的扩张？如果按照顺序打开前k个设施，这个解决方案的价值接近于最优打开任何k个设施选择的解决方案的价值？该公司的问题是增量k-中值问题，最初由Mettu和Plaxton提出[10]。

标准k-中值问题近年来一直是算法界密集研究的对象。给定度量空间中的一组设施和一组客户的位置以及参数k，k-中值问题要求找到一组k设施去打开，使得客户到这些打开设施的距离之和最小。由于度量k-中值问题是NP-hard [8]，因此许多研究人员专注于为其获取近似算法。用于最小化问题的α-近似算法运行在多项式时间内，并且输出其成本至多是最优解的成本的α倍。因子α有时被称为算法的近似因子或性能保证。成本至多是最优成本的α倍的解决方案有时称为α近似。已知此问题的最佳近似算法具有3 +ε的性能保证，并且归因于Arya，Garg，Khandekar，Meyerson，Munagala和Pandit [2];它基于本地搜索启发方法。

在增量k-中值问题中，我们给出了没有参数k的k-中值问题的输入，并且必须产生一系列设施。对于每个k，考虑按照一定顺序开放第k个设施的成本与最优k中值解决方案的成本的比率。该问题的目标是找到一个排序，以最大限度地减少所有的k值对应的比率的最大值。如果对所有k的比率的最大值不超过α，则称该问题的算法为α竞争。这个值α被称为算法的竞争比率。 Mettu和Plaxton [10]给出了增量k-中值问题的 29.86-竞争 算法。后来Lin，Nagarajan，Rajaraman和Williamson [9]给出了增量k-中值问题3的确定性16-竞争和随机10.88-竞争算法3。他们的算法使用k-中值近似算法或Lagrangean Multiplier Preserving（LMP）设施定位算法作为黑箱。

我们还考虑了分层k-中值问题的算法。在层次聚类中，我们通过从其自己的聚类中的每个点开始，并重复合并选定的聚类对直到所有点位于单个聚类中，为k的所有值给出具有k个聚类的聚类。我们还考虑了这个问题的一个变种，其中每个群集都有一个点指定为中心，当我们将两个群集合并在一起形成一个群集时，两个中心之一成为新群集的中心。考虑到k聚类的一些目标函数，我们再次希望确保对于任意k，我们以这种方式获得的k聚类的代价与最优k聚类的代价并不太远。对于分层k-中值问题，k-聚类的目标函数是它的k-中值成本;即每个点到其中心的距离的总和。 Plaxton [11]给出了一个 238.88-竞争 算法的问题。 Lin等人[9]后来给出了确定性的 40.42-竞争和随机 20.06-竞争 算法的问题。他们的算法再次使用k-中值近似算法或LMP设施位置算法作为黑盒子。

在本文中，我们考虑在不同k-中值基准数据集上的这些增量和分层k-中值算法的性能，并比较它们的运行时间和输出解决方案的质量。由于Lin等人的算法需要k-中值近似算法或LMP设施位置算法作为黑箱，我们还比较了一些现有的k-中值和LMP设施位置算法的性能。特别是，我们实施了五种不同的k-中值和LMP设施定位算法。第一个是Arya等人的单一交换本地搜索算法。 [2]，它给出了 5-近似解。我们还考虑了Charikar，Guha，Tardos和Shmoys [4]的线性规划（LP）舍入算法，该算法将LP最优化以得到 8-近似解。 Jain，Mahdian，Markakis，Saberi和Vazirani [7]给出了一个贪婪的双重Lagrangean Multiplier Preserving（LMP）设施位置（FL）算法，该算法给出了某些k值的 2-近似 k中值解。我们还考虑使用标准k-中值线性程序并使用CPLEX进行优化解决。最优解可以是分数，但仍然为k-中值问题提供了一个好的下界。即使该算法不是多项式时间，我们也可以使用CPLEX最优地解决k-中值整数程序。这些线性和整数程序给我们提供了其他算法解决方案质量的界限。

在给定这些算法的情况下，我们针对增量k-中值问题实施Lin等算法的几种变体。我们使用Arya等人的k-median局部搜索算法&