Abstract
在Facility Location和k-Median的增量版本中,需求点一次到达一个,并且该算法必须通过将每个新需求添加到现有群集或将其置于一个新的单例群集中来保持一个好的解决方案。 该算法还可以在任何时间点合并一些现有的群集。 我们提出了设施位置的第一个增量算法,它具有统一的设施成本,实现了恒定的性能比,并且对k-Median的第一增量式算法实现了恒定的性能比率,使用O(k)中值。
1.Introduction
用于数据聚类的增量算法模型由实际应用来推动,其中需求序列事先不知道,并且该算法必须使用受限制的操作集合来维持良好的聚类,这导致分层结构的解决方案。 Charikar等人[3]引入了增量聚类框架,以满足信息检索中数据分类应用的需求。
在本文中,我们考虑度量设施位置和k-中值的增量版本。在增量式k-中值[5]中,需求点一次到达一个。每个需求都必须添加到现有集群中,或者在到达时放置在新的单例集群中。在任何时候,该算法还可以合并一些现有的群集。每个集群都由其中间设施表示,其位置在集群创建时确定。当某些集群相互合并时,新集群的median必须从其组件的median中选择。目标是维持一个由最多k个集群/中心组成的解决方案,该解决方案可以最大限度地减少迄今为止考虑的需求的总分配成本。需求的分配成本是与当前包含需求的集群的中心的距离。
在增量设施位置,需求点一次到达一个,并且必须在到达时分配到现有设施或新设施。 在任何时候,该算法还可以通过关闭第一个设施并将当前分配给它的所有需求重新分配给第二个设施来将设施与另一个设施合并。 目标是维持一个解决方案,使设施和分配成本的总和最小化。 设施成本仅考虑当前开放的设施,而需求的分配成本则是当前被