【论文阅读】A Comprehensive Survey on Deep Clustering: Taxonomy, Challenges, and Future Directions之数据集及展望

 

论文地址:A Comprehensive Survey on Deep Clustering: Taxonomy, Challenges, and Future Directions | ACM Computing Surveys



摘要

聚类是机器学习中的一项基本任务,其目标是将实例分配到不同的组中,以便相似的样本归属于同一个簇,而不同的样本归属于不同的簇。传统的浅层聚类方法通常假设数据以特征向量的形式收集和表示,并在其内部进行聚类。然而,在处理高维数据(如图像、文本、视频和图)的聚类任务时,往往面临诸多挑战,例如表示的不加区分性以及实例间复杂的关系。

过去几十年来,深度学习在有效表示学习和复杂关系建模方面取得了显著成功。受到这些进展的启发,深度聚类(Deep Clustering)旨在通过深度学习技术提升聚类效果,并引起了学术界和工业界的广泛关注。尽管这一研究领域已取得了许多成果,但缺乏系统性的分析和全面的分类框架在一定程度上制约了其进一步发展。

在这篇综述中,首先探讨了如何将深度学习融入深度聚类,并识别出其两个核心组成部分:表示学习模块聚类模块。随后,总结并分析了这两个模块的代表性设计。此外,提出了一种基于这两个模块交互方式的全新深度聚类分类法,包括多阶段方法、生成式方法、迭代方法和同步方法。

除了理论分析,还介绍了知名的基准数据集、评估指标以及开源工具,以直观展示不同的实验方法。最后,探讨了深度聚类的实际应用场景,并提出了未来研究中亟待解决的关键挑战。

【论文阅读】A Comprehensive Survey on Deep Clustering: Taxonomy, Challenges, and Future Directions之总述-CSDN博客 中已经介绍了基本的概念,

这里将详细介绍深度聚类的数据集和未来工作展望。


数据集和评估指标
 

1 数据集


1.1 图像数据集

图像是现实世界深度聚类中最常用的数据类型。早期的深度聚类尝试应用于图像数据集,包括 COIL-20、CMU PIE、Yale-B、MNIST、CIFAR 和 STL-10。最近,研究者们致力于在大规模视觉数据集上进行聚类(如 ImageNet)。尽管现有方法在 ImageNet-10 和 ImageNet-Dogs 数据集上取得了令人满意的表现,但在 Tiny-ImageNet(200 个聚类)或完整的 ImageNet 上进行聚类仍然是一个挑战。

1.2 文本数据集

早期文本数据聚类应用中广泛使用的文本数据集包括 Reuters-215789 和 20 Newsgroups 数据集,这些数据集已经进行了向量化,且几乎不需要特征工程。目前,原始文本数据集,如 IMDB、stackOverflow 以及 NLP-datasets GitHub 仓库中的更多数据集,仍然是深度文本聚类中的挑战。

1.3 视频数据集

视频聚类的最终任务包括从动作分类到视频异常检测等。Kinetics-400 和 Kinetics-600 是两个最著名的视频数据集。其他视频数据集包括 UCF-101 和 HMDB-51 数据集。

1.4 图形数据集

常用的节点聚类图形数据集可以参考以下论文 [149, 150, 199] 和斯坦福网络分析项目。还有一些图形级分类数据集,如 PROTINS 和 MUTAG,可以用于执行和评估图形级聚类。

2 评估指标


评估指标用于评估方法的有效性。在深度聚类领域,广泛使用三种标准聚类性能指标:准确度(ACC)、归一化互信息(NMI)和调整兰德指数(ARI)。

2.1 准确度(Accuracy)

ACC 表示聚类样本的平均正确分类率。给定真实标签 Y = {yi |1 ≤ i ≤ N} 和预测的硬分配 Y˜ = {y˜i |1 ≤ i ≤ N},可以通过以下公式计算 ACC(公式 24):

其中,g 是预测标签和真实标签之间所有可能的一对一映射集合。通过匈牙利算法可以有效获得最佳映射 [201]。

2.2 归一化互信息(Normalized Mutual Information, NMI)

NMI 将预测标签和真实标签之间的互信息量化到 [0, 1] 范围内,如公式(25)所示:

其中,H(Y) 是 Y 的熵,I(Y˜;Y) 是 Y˜ 和 Y 之间的互信息。

2.3 调整兰德指数(Adjusted Rand Index, ARI)

ARI 来源于兰德指数(RI),RI 将聚类结果视为一系列成对决策,并根据正确决策的比例进行衡量,如公式(26)所示:

其中,TP 和 TN 分别表示真实正对和真实负对的数量,CN2是可能的样本对的数量。然而,两个随机分区的 RI 值不是常数且趋向于 0,因此引入了 ARI,如公式(27)所示:

其中,E(RI) 表示 RI 的期望值,max⁡(RI) 表示 RI 的最大值。
对于 ACC 和 NMI,其值范围在 [0, 1] 之间,而 ARI 的值范围在 [-1, 1] 之间,值越高表示性能越好。

3应用

尽管深度聚类在挖掘实例之间的全局模式方面取得了成功,它也为各种下游任务带来了好处。

3.1 社区检测


社区检测 [6, 202, 203] 旨在根据连接密度将图网络划分为多个子图,这可以视为节点级图聚类任务。早期的研究主要基于模块度测量 [204, 205]、最大流 [206]、图切割 [207] 及其扩展,谱方法 [208]。随着图神经网络(GNNs)[209, 210] 的发展,节点被表示为低维空间中的独立实例。因此,现代社区检测 [5] 和图聚类 [211–213] 之间的边界逐渐模糊,基于 GNN 的图聚类 [214, 215] 已被广泛应用于多个领域。然而,不同于早期关注网络拓扑的社区检测,图聚类通常结合了节点属性和其他附加信息。如何在保留拓扑特征的同时释放 GNN 的潜力,仍然是一个研究课题。

3.2 异常检测


异常检测(也称为离群点检测、新颖性检测)是一种用于识别数据中异常实例或模式的技术。深度聚类之前,基于密度的聚类方法 [216–218] 已经特别提到了和解决了聚类中的噪声问题,这为一组基于密度的异常检测方法 [219, 220] 提供了启示。后来的异常检测方法 [153, 221–223] 利用聚类结果,将异常实例识别为远离聚类中心或每个聚类的边界的实例。目前,深度聚类在为异常检测形成更好的聚类空间方面展现出巨大潜力。近年来的努力已经集中在在统一框架中进行异常检测:识别并去除异常实例以减少对聚类的影响 [224],同时异常检测可以通过更好的聚类结果进一步改进。

3.3 图像分割与目标检测


图像分割是模拟人类图像理解的最重要方法之一,旨在将像素划分为不相交的区域。一般来说,图像分割是以监督的方式进行像素分类和以无监督的方式进行像素聚类 [225, 226]。目前,深度聚类已成功应用于分割,通过聚类的区域生成场景图 [227]。Yi 等人 [228] 研究了基于图切割的图像分割,其中图切割是执行聚类的最基本方法之一(谱聚类)。3D 聚类可以解决 3D 目标检测问题,例如在 [229] 中,3D 点被聚类以表示具有几何一致性的物体。但这种基于聚类的分割和目标检测无法保证对小区域和物体的处理,其中期望的聚类结果高度不平衡。在进行聚类时,像素的全局位置信息可能被忽视。

3.4 医学应用


卷积神经网络(CNN)成功地推动了医学图像处理的发展,并以监督的方式进行处理。然而,手动数据集标签化过程通常劳动密集,并且需要专家的医学知识 [123],这在现实场景中难以实现。最近,深度聚类被引入到自动分类大规模医学图像中 [123]。Mittal 等人 [160] 引入了医学图像聚类分析,用于更快速地诊断 COVID-19。在生物学领域,单细胞 RNA 测序(scRNA-seq)[230] 提供了用于分析细胞群体和行为,甚至发现新细胞的基因矩阵。为此,ScDeepCluster [129] 和 ItClust [189] 基于 DEC [102] 开发了模型来聚类 scRNA-seq 数据,而 MARS [231] 结合了迁移学习和聚类来发现新的细胞类型。在基因数据聚类领域还有更多应用 [232]。

除了前述深度聚类成功应用外,聚类在许多其他领域也具有重要前景,如金融分析 [233–235]、轨迹分析 [236, 237] 和社交媒体理解 [238–240]。尽管这些方法中的许多尚未采用深度学习技术,但考虑到数据量和复杂性的增长,预计深度聚类将在这些领域产生重大影响。

4 未来发展方向


基于上述基础、分类法和现实世界应用,讨论深度聚类的未来发展方向。

4.1 深度聚类模块的初始化


深度神经网络的初始化通常在训练效率和稳定性方面起着重要作用【241】。这在深度聚类中尤其关键,因为表示学习模块和聚类模块都通过深度神经网络建模。最近,模型预训练【242】作为一种流行的网络初始化技术,也已被引入深度聚类【95】。然而,基于预训练的初始化适用于表示学习模块,但对于聚类模块尚未得到充分研究。尽管已经有一些浅层聚类的初始化方案【243】,但深度神经网络中聚类模块的初始化仍在研究中。

4.2 重叠深度聚类


本文讨论的深度聚类方法主要集中在划分式聚类,其中每个实例属于单一的聚类。然而,在现实场景中,每个实例可能属于多个聚类。例如,社交网络中的用户【244】可能属于多个社区,社交媒体上的视频/音频可能具有多个标签【245】。在本文讨论的深度聚类方法中,如果聚类约束施加在聚类分配的概率矩阵上,则可以直接适应重叠聚类设置。然而,如果训练依赖于数据实例的伪硬标签,则可能无法适应重叠聚类设置。尽管多标签分类在文献中已被广泛研究【246, 247】,但如何适应无监督聚类仍然是一个开放的研究问题。

4.3 深度聚类增强表示


本文中可以发现,一个好的表示对于聚类至关重要。尽管文献中已经研究了面向聚类的表示学习,它们通常是为特定的浅层聚类方法设计的。相反,聚类结构表示了数据集的高阶模式,这些模式应当在综合表示中得到保留【248】。本文讨论的深度聚类方法关注如何结合表示学习来增强聚类,同时,如何通过聚类反过来增强表示学习仍然需要进一步研究。

4.4 深度聚类的解释性


作为一个无监督任务,聚类过程通常缺乏诸如标签语义、聚类数量【249】等人类先验知识,这使得聚类结果难以解释或理解。一些方法【250】已经结合了用户提供的标签来增加聚类结果的解释性。然而,它依赖于准确的人类标签,这在实践中可能无法实现。随着因果推断在深度学习中的发展,实例间的聚类解释性有望得到提升。学术界和工业界都期望为聚类,特别是在高维数据上的聚类,提供一个通用的解释框架。总之,如何在聚类中利用因果推断技术是非常重要的,值得更多关注。

4.5 深度聚类的迁移学习


迁移学习【251】旨在弥合训练数据集和测试数据集之间的分布差异。其基本思想是将已知数据中的知识转移到未知的测试数据中。近年来,深度聚类在无监督迁移学习【3, 4, 252-254】中发挥了越来越重要的作用,其中目标领域是无监督的。例如,ItClust【189】和MARS【231】在scRNA-seq聚类中取得了成功,AD-Cluster【255】使用聚类方法改进了领域自适应的人员重识别。与此相反,无监督迁移学习方法也可以从深度聚类中受益。以UCDS【256】为例,采用无监督领域自适应进行变异域中的聚类。分布偏移是影响机器学习模型(包括深度聚类)性能的关键因素。聚类分析的性能可以进一步加深对无监督目标领域的理解,但如何将聚类结果转化为知识,并有效减少基于聚类结果的分布偏移,还可以进一步探索。

4.6 带有异常值的聚类


前面讨论了深度聚类在异常检测中的应用,其中实例被良好地聚类。考虑到数据集中异常实例的存在,聚类可能也会受到影响和相互制约,因为大多数现有的深度聚类方法对离群点没有特定的响应。经典的K-means方法已知对离群点非常敏感,尽管已经有一些研究致力于克服这一问题【224】,但它们是为浅层聚类方法设计的。因此,如何提高深度聚类对异常实例的鲁棒性,并通过减少检测到的异常实例逐步提高聚类性能,仍然是一个开放的研究问题。

4.7 退化解与数据不平衡


退化解【99】问题已成为深度聚类中的一个重大挑战,其特征是所有实例可能被分配到单一聚类中。许多深度聚类技术已实施附加约束来解决这一问题【95, 99, 112, 131, 133, 134, 257】,其中聚类大小分布的熵是最广泛采用的策略。通过熵最大化,预计实例将在每个聚类中均匀分布,从而防止所有实例坍缩到一个聚类中。重要的是,这种方法的有效性依赖于实际标签的均匀分布,这一条件适用于标准数据集如CIFAR10和CIFAR100。然而,在实际环境中,这一假设可能过于严格,因为许多数据集表现出不平衡或长尾分布【258】。实现均匀分布和处理不平衡数据的目标相冲突,可能会显著削弱深度聚类的有效性。最近,针对不平衡数据聚类【259, 260】的关注有所增加,预计这将改善实际场景中的聚类效果。

4.8 高效训练与全局建模


为了提高训练效率和可扩展性,大多数现有的深度聚类方法采用了小批量训练策略,其中实例被分成批次,并在每个批次后更新模型。这适用于实例彼此独立的任务,例如分类和回归。然而,由于深度聚类严重依赖实例之间复杂的关系,这种小批量训练可能会失去全局建模的能力。尽管一些现有方法已经使用聚类表示或原型【248】来存储全局信息,但仍值得研究如何平衡训练效率和模型能力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值