深度聚类（deep clustering）中的自监督（self-supervised）表示学习（representation learning）

小薇薇小勇士

已于 2023-08-09 15:56:55 修改

阅读量4.2k

点赞数 14

分类专栏：自监督文章标签：聚类算法数据挖掘

于 2021-12-14 19:35:26 首次发布

本文链接：https://blog.csdn.net/qq_35803227/article/details/121828957

版权

本文探讨了深度聚类领域中，如何结合自监督表示学习来提升无标签数据的聚类效果。作者分析了深度聚类的不同方法，如DCN、SCAN和GATCluster等，强调了特征学习和聚类之间的关系。文章介绍了如何通过自监督任务学习聚类友好的特征表示，并通过实例展示了这些方法如何避免平凡解和增强聚类的判别性。最后，作者讨论了不同的自监督损失函数和正则化策略对聚类性能的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

序言

两年之前开始学习深度聚类，首先是被其面对高维复杂海量数据时聚类效果的大幅度提升所吸引，两年之前那个“意气风发”的我读了几篇论文，以为自己已了解其主体，便动手写了那么几篇论文，结果是被现实摁在地上狠狠的摩擦。我开始重新审视这个方向。深度聚类中，深度模型的多样化，经典的有自动编码器AE,变分自动编码器 VAE,生成对抗网络GAN,高斯混合模型GMM以及近几年流形起来的图神经网络GCN等，聚类算法的多样性有经典的kmeans，凝聚聚类，谱聚类等。我把自己的目标定位在神经网络部分，而每类神经网络模型都是被损失函数特定化的，我用现有的网络模型，在目标函数中加入适当的约束来学习的特征，往往会被审稿人指正缺乏创新性，让我也是陷入了迷茫，深度聚类过于宽泛，它不是一个算法，也不是一个模型，可以有个点进行改进。老师建议我在宽泛的深度聚类中寻找一个点深入研究，不要面面俱到而不够深入，我深感赞同；师兄师姐的建议是用深度学习去解决聚类面对的问题，切入点是聚类，改变我以往的定位，因为对于我来说对神经网络模型的创新确实难度太大。综合个人多次失败经历以及老师和师兄师姐的指导建议，我再次重新审视我的方向（一边哭一边奔跑没错了）。总观深度聚类，一个点是特征学习，一个点是聚类；而神经网络的特征学习通常是有监督的训练，而聚类问题是无标签数据，我看过的论文一半都是KL散度使得特征逼近高置信度点的分布，最后加入聚类损失函数进行微调；并且我做过的几次实验都有因为没有标签（比如深度度量学习）而卡住的现象，所以又出现了半监督深度聚类，为了将聚类与深度学习更好的结合，我决定将适用于聚类的自监督表征学习作为研究切入点，一句简单的话，涵盖了自监督与表示学习，二者之间密不可分，而目的就是服务于聚类。而在阅读中发现一个逻辑问题，聚类是实现自监督的一种手段，可以说聚类包含于自监督，而我的目的是将自监督服务于聚类，所以再次迷茫了一天（哈哈哈哈），我将2022年顶会题目中自监督与聚类的论文作了清单整理，而有了下面的思路。从聚类切入，它需要的特征是相似样本尽可能在一起，不相似的样本远离，对于相似性的判断，学者们会有很多角度；为了提高精度，聚类也需要判别性的特征，使得簇之间尽可能的远离，区分开相似样本，比如数字数据集中4和9经常被聚类错误，对于判别性的引入，学者也有很多角度。从这些角度出发，定义目标函数引导神经网络训练就会获得Clustering-friendly representations；训练需要的标签，学者们就会通过多种角度定义伪标签。所以本篇博客想要分享的就是近几年顶会中自监督表示学习与聚类相结合的论文，为正在改进的一个论文作准备（保密，哈哈哈）。

Towards K-means friendly space: simultaneous deep learning and clustering（ICML 2017）

DCN是2017年ICML论文，可谓是神经网络学习k-means firendly space的鼻祖。研一读这篇文章时，只觉得目标函数由重构损失加kmeans损失，如今再次回顾，不得不惊叹作者的创新思路，这是一个从无到有的过程，包括函数的设计思路以及优化过程。我个人理解为是深度聚类中学习clusteirng-friendly space的开始，后续很多对目标函数的设计皆来源于此。本文提出的目的首先是将降维和聚类同时进行，使得数据降维后的空间适合聚类，这类工作在1994、2013年已有人进行，但他们是用线性方法。线性方法的局限性是假设observable data通过线性变换从clustering-friendly空间获得，而在很多情况下，线性方法生成过程复杂且不符合实际。作者思考通过非线性方法将降维与聚类联合优化，非线性方法采用神经网络的学习。因为神经网络DNN能够使用合理数量的参数来逼近任何continuous maaping。其中一个重要的问题是如何防止平凡解？作者采用重构损失进行约束。
在这里插入图片描述
在对目标函数进行优化的过程中，作者采用交替更新和随机梯度下降。需要更新的参数有编码和重构函数的（w

最低0.47元/天解锁文章