半监督聚类方法

传统无监督聚类算法在划分数据时并不需要任何数据属性,但在实际应用中,存在少量带有独立类标签或成对约束的监督信息的数据样本,学者们致力于将这些为数不多的监督信息运用于聚类,以得到更优的聚类结果,从而提出 了半监督聚类。

1.无监督聚类

先说无监督聚类,如图 1-2 所示,现有的无监督聚类算法按照度量数据样本间相似度的方式, 以及聚类过程中数据样本之间的关系被划分为五大类,即基于划分方法的聚类、 基于层次方法的聚类、基于密度方法的聚类、基于网格方法的聚类、基于模型方 法的聚类[7]。所谓基于划分方法的聚类(基于划分方法的聚类算法在处理非标准正态分布和非均匀数据集时,聚类效果会比较差。)是指:在对数据对象进行聚类之前,需要创建 k 个划分个数,即提前设定好 k 个簇数。k 均值(k-means)聚类算法[8-10]、 PAM(Partitioning Around Melodies)聚类算法[11]、k 中心点(k-mediods)聚类 算法[12,13]等等聚类算法都是相对经典的划分聚类算法;基于层次聚类方法是采用 “自底而上”的聚合策略或者“自顶向下”的拆分策略,试图在不同层次上对数 据样本集进行划分,从而形成树形的聚类结构。AGNES 聚类算法[14]采用的是“自 底而上”的聚类策略,DIANA 聚类算法[15]采用的另一种“自顶而下”的拆分策 略;基于密度的聚类算法,本质上来说就是定义一种密度的概念来进行聚类,而 密度定义的本质来自于数据样本集的数据点与点之间的距离。这类算法不仅能改 善基于距离的算法只能发现球形、凸形的簇类的缺陷,可以发现任意形状的聚类, 并且对噪声数据样本点不敏感。具有代表性的密度聚类有 DBSCAN[16]高密度连 通区域聚类、OPTICS 点排序识别聚类结构聚类[17,18]、DENCLUE[19,20]密度分布函 数聚类算法等;基于网格的聚类方法是将空间量划分为一定数目的单元,使之形 成一个网格结构,所有数据样本对象都在此网格上进行聚类。这种网格聚类方法 速度快,算法复杂度相对较低,改善了划分聚类、层次聚类等相关算法复杂度高的问题。相关的网格聚类算法有 STING 统计信息网络聚类算法[21]、WaveCluster 利用小波变换聚类算法[22,23];统计学方法 COBWEB[24,25]、神经网络方法 SOMs[26,27] 都归属于基于模型的聚类算法。 

 

2.半监督聚类

再说半监督聚类,半监督聚类是结合半监督学习与聚类分析而提出的新的学习方法,目前半监督聚类中常见的先验知识表现为反映样本间相似关系的约束条件,约束条件主要有两大类方法:基于约束的方法和基于距离的方法。前者将约束作为聚类目标的一部分直接作用于聚类算法,并且依靠用户提供的标号或约束来指导算法,产生更合适的数据划分;后者是使用一种自适应距离度量,该度量已经被训练,以满足监督数据中的标号或根据约束构造某种距离度量并以此为基础运行各种聚类算法。大致来看,半监督聚类方法分为三种不同的类型:基于约束方法的半监督聚类[28-30],基于距离方法的半监督聚类[31,32],以及基于距离和约束混合方法的半监督聚类算法 [33,34]。

2.1基于约束方法的半监督聚类

  • Cop-Kmeans算法

Wagstaff等[28]将成对约束的思想运用到传统K-means 算法中,提出了Cop-Kmeans算法。Cop-Kmeans算法的基本 聚类思想与K-means相同,只是在数据分配过程中要求数据 对象必须满足Must-link(ML)约束和Cannot-Link(CL)约束 条件(ML代表被选中的两个点一定是属于同一类,而CL代 表被选

  • 10
    点赞
  • 53
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
AP(affinity propagation)聚类也被称为近邻传播聚类,它是一种半监督聚类算法。与传统的聚类方法不同,AP聚类不需要事先设定聚类簇的个数,而是通过分析数据点之间的相似性来自动划分数据集。 AP聚类的核心思想是任意两个数据点之间的相似性传播。相似性可以通过计算数据点之间的相似度来衡量,相似度可以是一种度量或者一个简单的距离函数。AP聚类算法中的相似度矩阵表示每对数据点之间的相似性。 AP聚类的过程如下:首先,初始化数据点的选择集合,将其作为当前候选出的聚类中心。然后,通过迭代更新两个矩阵:归属度矩阵和候选出矩阵。归属度矩阵表示每个数据点归属于每个聚类中心的程度,而候选出矩阵表示每个数据点是否被选择为聚类中心的候选。 在每次迭代中,首先更新归属度矩阵。对于每个数据点,计算其与其他数据点的相似性,选择与其相似度最高的数据点作为其聚类中心,同时更新其他数据点对该聚类中心的归属度。接下来,更新候选出矩阵。对于每个数据点,计算其与其他数据点的归属度之和,如果该和大于一个阈值,则将其设置为聚类中心的候选。 通过反复迭代更新归属度矩阵和候选出矩阵,直到算法收敛为止。最终,聚类中心将作为数据点的标签,每个数据点将被划分到与其最相似的聚类中心。 AP聚类的优点是不需要预先设定聚类簇的个数,可以自动发现数据集中的聚类结构。然而,由于其计算和存储相似性矩阵的复杂性,AP聚类对于大规模数据集的处理效率较低。同时,由于其依赖于阈值的选择,AP聚类的结果对于参数的选择较为敏感。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值