在这篇题为《Optimal Margin Distribution Clustering》的论文中,南京大学周志华教授、张腾博士提出了一种新方法——用于聚类的最优间隔分布机(Optimal margin Distribution Machine for Clustering/ODMC),该方法可以用于聚类并同时获得最优间隔分布。在 UCI 数据集上的大量实验表明 ODMC 显著地优于对比的方法,从而证明了最优间隔分布学习的优越性。
聚类是机器学习、数据挖掘和模式识别中的一个重要研究领域,其目标是分类相似的数据点。它催生出了包括信息检索、计算机视觉、生物信息学等在内的大量新研究,并且不同的聚类算法已被提出超过十年(Jain and Dubes 1988; Xu and Wunsch 2005; Jain 2010)。
最近有一种称为最大间隔聚类(MMC/maximum margin clustering)的方法,它基于支持向量机的大间隔启发(Cortes and Vapnik 1995; Vapnik 1995)。对于好的聚类方法而言,当标签分配到不同簇时,SVM 在该数据上可以得到最大化的最小间隔。由于形式化成的极大极小问题涉及用集合 {+1, −1} 标记每一个实例,它也就不再是一个凸优化问题,而是一个更难处理的混合整数规划(mixed-integer programming)。从那时起,为解决这一问题做了大量努力,这些努力可被分为两类。第一类通过不同的凸松弛技术(Xu et al. 2005)首次将其松弛为凸半定规划