1 Inroduction
1.1 背景和符号
k-中值问题几十年来一直受到重视,主要是计算机科学和运筹学研究。 这个问题通常形式化如下:
给定一个度量空间X,一组客户C∈X和一组设施F∈X,使得| X | = | F∪C| = n,在F中开放k个设施,以尽量减少每个客户到最近开放设施的距离总和。
我们将距离度量定义为对于i∈{1,...,n},j∈{1,...,n}的,使得
是度量空间X中点i和j之间的距离。Kariv和Hakim [1]证明在网络中发现这样的k个中值是一个NP难题,通过减少对它的支配集问题。一个简单的brute-force算法将检查F中的每个可能的size-k子集,为每个客户计算该集合中最接近的设施,并返回最佳设置。这个蛮力算法将在
时间运行,其中
。因此,对这个问题的学术研究主要集中在产生好的近似算法上。对于给定的算法,近似比率被定义为算法输出成本与最优成本之间可能的最差可能比率。然而,对于大多数问题实例,我们并不知道实际的最优成本,因此我们计算近似比率为算法返回的总成本除以1.2节讨论的宽松线性程序的最优值。 Jain等人[2]证明k-median问题是1+ 2/e≈“1.736” - 难 以在度量空间内逼近。我们注意到,在本文中,我们所有的距离度量都满足度量空间的属性。
1.2 与其他NP难问题的关系
k-median问题与设施位置问题(FLP)有许多相似之处。 在这个问题中,我们给出包含有客户C,设施F,使用设施i的客户j的成本dij以及与开放设施i相关联的成本fi的度量空间X. 有两个设施位置问题的变体:无容量和有容量。 在无容量设施位置问题(UFLP)中,任何数量的客户都可以使用任何给定的设施。 在容量化设施选址问题(CFLP)中,我们定义了一组变量V(i),使得使用设施i的客户数量必须小于或等于V(i)。 对于本文的其余部分,我们只关心自己的无容量设备位置问题。 在1966年,Balinski [3]为UFLP定义了以下整数程序。 这里,yi表示设施i是否打开,xij表示客户端j是否连接到设施i。
通过将整数约束xij∈{0,1}和yi∈{0,1}分别转换为xij≥0和yi≥0,可以放宽整数程序。UFLP的另一个变体是将开放设施的数量限制在k(UKFLP)。 我们可以通过添加yi值的总和必须小于或等于k的约束条件来构造整数(以及最终的线性松弛)程序。 通过设置fi = 0,我们可以很容易地将UKFLP连接到一个无容量限制的k-中值问题上。所得到的整数程序定义如下:
通过将整数约束xij∈{0,1}和yi∈{0,1}分别转换为xij≥0和yi≥0,可以放宽整数程序。 就本文而言,我们将无容量限制的k中介问题简称为k中值问题。 如果X = F = C,则k-中值算法简单地对度量空间中的点进行聚类
1.3 现有的理论研究
现有关于k-中值近似算法的大量研究。 前向贪婪算法通过选择下一个未打开的设施来迭代打开设施,以使上面定