K-median 算法

本文深入探讨了k-中值算法的理论基础,包括其NP难度、与其他NP难题的关系,以及现有理论研究中的近似算法。前向和反向贪婪算法、局部搜索以及Jain和Vazirani的算法被讨论,同时强调了Charikar 2012年的LP舍入算法的重要性。实证研究部分对比了不同算法在解决k-中值问题时的表现,尤其是在随机生成数据集上的性能。
摘要由CSDN通过智能技术生成

1 Inroduction

1.1 背景和符号

k-中值问题几十年来一直受到重视,主要是计算机科学和运筹学研究。 这个问题通常形式化如下:

给定一个度量空间X,一组客户C∈X和一组设施F∈X,使得| X | = | F∪C| = n,在F中开放k个设施,以尽量减少每个客户到最近开放设施的距离总和。

我们将距离度量定义为对于i∈{1,...,n},j∈{1,...,n}的,使得是度量空间X中点i和j之间的距离。Kariv和Hakim [1]证明在网络中发现这样的k个中值是一个NP难题,通过减少对它的支配集问题。一个简单的brute-force算法将检查F中的每个可能的size-k子集,为每个客户计算该集合中最接近的设施,并返回最佳设置。这个蛮力算法将在时间运行,其中。因此,对这个问题的学术研究主要集中在产生好的近似算法上。对于给定的算法,近似比率被定义为算法输出成本与最优成本之间可能的最差可能比率。然而,对于大多数问题实例,我们并不知道实际的最优成本,因此我们计算近似比率为算法返回的总成本除以1.2节讨论的宽松线性程序的最优值。 Jain等人[2]证明k-median问题是1+ 2/e≈“1.736” - 难 以在度量空间内逼近。我们注意到,在本文中,我们所有的距离度量都满足度量空间的属性。

1.2 与其他NP难问题的关系

k-median问题与设施位置问题(FLP)有许多相似之处。 在这个问题中,我们给出包含有客户C,设施F,使用设施i的客户j的成本dij以及与开放设施i相关联的成本fi的度量空间X. 有两个设施位置问题的变体:无容量和有容量。 在无容量设施位置问题(UFLP)中,任何数量的客户都可以使用任何给定的设施。 在容量化设施选址问题(CFLP)中,我们定义了一组变量V(i),使得使用设施i的客户数量必须小于或等于V(i)。 对于本文的其余部分,我们只关心自己的无容量设备位置问题。 在1966年,Balinski [3]为UFLP定义了以下整数程序。 这里,yi表示设施i是否打开,xij表示客户端j是否连接到设施i。


通过将整数约束xij∈{0,1}和yi∈{0,1}分别转换为xij≥0和yi≥0,可以放宽整数程序。UFLP的另一个变体是将开放设施的数量限制在k(UKFLP)。 我们可以通过添加yi值的总和必须小于或等于k的约束条件来构造整数(以及最终的线性松弛)程序。 通过设置fi = 0,我们可以很容易地将UKFLP连接到一个无容量限制的k-中值问题上。所得到的整数程序定义如下:


通过将整数约束xij∈{0,1}和yi∈{0,1}分别转换为xij≥0和yi≥0,可以放宽整数程序。 就本文而言,我们将无容量限制的k中介问题简称为k中值问题。 如果X = F = C,则k-中值算法简单地对度量空间中的点进行聚类

1.3 现有的理论研究

现有关于k-中值近似算法的大量研究。 前向贪婪算法通过选择下一个未打开的设施来迭代打开设施,以使上面定

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值