【论文笔记】《多视图聚类算法研究》

作者:朱信忠

论文类型:算法研究 博士论文

论文页面:http://gb.oversea.cnki.net/KCMS/detail/detail.aspx?filename=1019000270.nh&dbcode=CDFD&dbname=CDFDTEMP

论文时间:2017年

本篇论文的内容:

将每个核矩阵视为一个视图,主要工作集中于设计有效的多视图聚类算法以提高聚类性能。四个方面:

  1. 提出了基于矩阵范数导出正则化的多视图聚类算法。
  2. 提出了一种最优的邻居核聚类算法来增强所学最优核表示能力。
  3. 提出了一种缺失多视图 K-均值算法。
  4. 提出了一种矩阵范数正则化的局部缺失多视图 K-均值算法。

第一章 绪论

多视图聚类算法按照视图的组合方式可以分为两大类:特征级融合,决策级融合。

目前已有研究的问题:

  1. 没有充分考虑视图间的相关性。这容易造成选择具有高冗余性和低多样性的
    视图,从而影响最终的聚类性能。
  2. 假设最优核是一组基核的线性组合,简化了最优核的可行解空间,也忽略了
    核学习和聚类这两个过程之间的联系性,从而影响最终的聚类性能。
  3. 假设每个样本的所有视图数据都是可观测的,这使得它们不能有效地处理视
    图中含有缺失的问题。
  4. 现有具有缺失核的多核聚类算法忽略了数据间的局部特性,从而影响了后续
    的聚类性能。

本论文的研究目标是(对应上面的问题)(对应第二-五章内容):

  1. 设计有效的多视图聚类算法以有效地处理视图间的冗余性与多样性问题;
  2. 设计最优邻居多视图聚类算法以进一步提高算法的聚类性能;
  3. 设计有效的多视图聚类算法以有效地处理数据中含有缺失的问题;
  4. 设计具有矩阵范数正则化的局部多视图聚类算法以更有效地处理数据中含
    有缺失的问题;

第二章 矩阵范数导出正则化的多视图聚类算法

【核聚类】是什么:核聚类简单描述(拓展)

核聚类步骤:(k-means举例)核k-means首先通过特征图谱映数据到高维空间,然后在新的空间中进行k-means聚类。

现有的多核聚类算法的问题:(1) 通过低秩优化学习一个一致矩阵;(2) 另一种方式则通过使用多核学习框架优化一组核系数以组合不同的核(本文是第二种)

为了减少冗余,增强被选中核的多样性,需要一个正则化项以描述每一对核的相关性。

评价指标:聚类准确度 (ACC) 和归一化互信息 (NMI)

第三章 基于最优邻居核的多视图聚类算法

多视图聚类利用一簇预先指定的核来学习最优核,进而改善聚类性。这些算法大致可以被分为:(1)算法利用低秩优化构建一致矩阵;(2)假设最优核是基核的线性组合,通过优化基核的组合系数来最小化聚类指标(本文是第二种)

方法&优点:将最优邻居核学习与现有的多核K-均值聚类(MKKM)算法结合来提高最优核的表示能力,并更好地平衡核学习过程与聚类过程。算法内容:在Kγ的邻居中寻找最优核G,然后用它来聚类。

聚类矩阵明确地被用来学习最优核,反过来,它又被用来聚类。这两个学习过程被无缝耦合同时相互协作来取得最好的聚类效果。

算法和现有大多数MKKM算法最大的不同在于最优核的形式。现有MKKM 算法采用的假设是最优核是基核的线性组合。此算法只要求最优核在基核组合的附近就行。

评价指标:精度、互信息和纯度

第四章 缺失多视图聚类算法

现有算法的假设/缺点:多核聚类算法并没有考虑到基核之间的相关性,所有基核都是完整的,也就是说每个基核的行和列都没有缺失。

一个直接的补救措施就是先用一种填补算法来填补缺失核,然后利用一种标准的聚类算法进行聚类。其缺点:它们分开了填充和聚类这两个过程,这抑制了两个过程之间的相互协调从而达到最优的聚类结果。

算法内容:每一轮迭代的聚类结果将指引缺失核元素的填补,这将用于后续进一步的聚类,这两个流程交替进行直至收敛。优点:这样填补和聚类过程可以无缝连接,从而达到最佳的聚类效果。

优点:(1)有效解决了多核聚类中出现的行列缺失的问题;(2)相比同类算法,取得了更好的实验结果,特别是存在大量缺失的情况时;(3)通过考虑聚类目标,能够更好地恢复缺失的基核。

评价指标:聚类精度(ACC)、归一化互信息(NMI)

第五章 局部化缺失多视图聚类算法

将缺失填充和聚类整合到单一的优化过程的缺点:(1)强制性地迫使更近和更远的样本对与相同的理想相似度相等,并且不适当地忽略同一类别中样本的变化; 和 (2)没有充分考虑到多核矩阵之间的相关性,这可能导致所选择的内核存在高冗余度和低样性。这两个因素使得这些预定义的核矩阵没有得到有效的利用,反过来又不利地影响聚类表现(P.S.按这个说法那第四章也有这些缺点?没有提到说是第四章的改进)

算法:基于矩阵引导的正则化(LI-MKKM-MR)的局部缺失多视图k-means算法。

其优点:仅要求样本与其k个最近的邻居的相似性与理想的相似性矩阵对齐。引入矩阵引导的正则化能够减少多核的冗余并增强所选择的核的多样性,使多核能够更好地用于聚类。

算法的改进:(1)遵循,引入矩阵引导的正则化项来减少冗余并强制所选基核的多样性,在正则化项中采用 Mpq = Tr(KpKq) 来度量 Kp 和 Kq 之间的相关性,充分利用更多的基核矩阵, 这是提高聚类性能(2)使用代替Mpq, Kp(0)是Kp的初始填充,满足了我们对核系数的要求, 减少冗余和提高多样性。

评价指标:聚类精准度 (ACC)、归一化互信息(NMI) 和纯度

第六章 总结与展望

P.S.这篇有的算法不太看得懂,回头多视图聚类算法看多了再来看看。

 
  • 6
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值