underlying manifold+clustering

摘要

深度聚类算法通常将特征学习与深度神经网络相结合,通常可以优化聚类和非聚类损失。在这种情况下,自动编码器通常与聚类网络连接,并且最终的聚类由自动编码器和聚类网络共同学习。本文提出学习自动编码的嵌入,然后在其中进一步搜索底层的流形。为了简单起见,使用浅层聚类算法而不是更深层的网络对其进行聚类。在原始数据和自动编码的嵌入方面研究了许多本地和全局流形学习方法,得出结论,框架中的UMAP能够找到最佳的可聚类嵌入流形。这表明在自动编码的嵌入上进行局部流形学习对于发现更高质量的簇是有效的。

介绍

k-means ,以及许多传统的聚类算法,例如高斯混合模型(GMM)、DBSCAN 和分层算法,通常需要为每个数据集创建手工设计的特征。此外,还要特征选择来分析这些特征,以便消除多余或质量较差的特征。这是一个耗时且易碎的过程,特征的选择对聚类算法的后续性能影响很大。但是,深度学习无需进行人工特征提取和选择。自动编码器是一种可以自动学习强大数据特征的方法。自动编码器通过深层神经网络有效地寻求学习数据的内在结构,并通过学习重建原始数据。从原始数据中学到的特征通常用于一系列任务。深度聚类是指结合深度神经网络进行聚类的过程,通常通过CNN 或自动编码器从原始数据中自动学习特征,并用深度神经网络进行聚类。

提出一种简单的方法N2D,该方法可以在自动编码特征的基础上用流形学习技术有效地替换聚类网络。具体来说,它在特征中找到一个距离保持流形。然后可以使用常规的非深度聚类算法进行聚类。N2D用流形学习方法和简单的非深度聚类算法代替了聚类网络的复杂性,从而降低了深度聚类的深度,但通过额外的流形学习步骤却获得了卓越的性能。一个重要的问题是将哪种流形学习技术应用于自动编码表示。有许多可能的方法,例如众所周知的主成分分析(PCA)。 PCA寻求通过通常使用协方差矩阵的特征分解或通过计算数据的奇异值分解(SVD)来学习将数据线性转换为新空间的方法。但是,PCA是线性方法,在关系为非线性的情况下效果不佳。幸运的是,存在替代的非线性流形学习方法,并且可以根据它们对查找局部或全局结构的关注程度进行分类。全局方法包括Isomap ,而t-SNE 是局部方法。UMAP 虽然也是局部的,但已被证明可以更好地保留全局结构。所有这些方法都试图利用点之间的距离来更好地学习底层结构,并且认为它们将改善自动编码嵌入的可聚性。为了更好地理解这一点,研究了这些多种学习方法在原始数据和自动编码嵌入上的性能。

用于深度聚类的深度神经网络种类繁多,包括MLP ,卷积神经网络(CNN)和生成对抗网络(GAN)。当在特征学习步骤中使用时,这些方法将优化特定损失,例如重建损失或生成对抗损失。此外,增加了聚类损失以指导算法找到更多的更利于聚类的特征。这些损失可能包括k均值损失或簇硬化损失。然后,通常以某种方式将这些损失合并在一起,例如与联合训练结合,其中聚类损失的权重通常比非聚类损失低得多。
沿着这些思路,IDEC 和ASPC-DA 都在其初始预训练步骤中使用了自动编码器。基于这种学习的特征,这些方法使用k均值初始化新聚类网络的权重。然后,IDEC和ASPCDA用自动编码器共同训练了这个聚类网络。这些方法在许多聚类任务中表现良好。使用两个不同的损失的替代方法是使用单个合并损失,例如DEC 或JULE 。 JULE使用CNN作为特征学习步骤,将特征的学习和聚类集成到单个循环模型的后退和前进过程中。他们的方法的缺点是由于模型的重复性,它的效率很低。
Hasan和Curry 探索了关于嵌入的流形学习的概念。在这项工作中,他们专门研究了将LLE应用于现有单词嵌入的设置,从而提高了单词相似性任务中单词嵌入的性能。他们展示了这种方法在度量标准恢复中如何具有理论基础[9]。我们注意到,在这项工作中,他们将LLE应用于嵌入的窗口,并使用LLE转换原始嵌入的测试向量,而我们感兴趣的是学习整个嵌入​​的流形,以优化可聚性。

方法

方法主要依赖于两种不同流形学习方法的组合。 第一个是自动编码器,在学习特征时,不会明确考虑局部结构。通过使用显式考虑局部结构的流形学习技术增强自动编码器,可以提高在聚类性方面学习的特征的质量。
自编码器
自动编码器是由两个关键组件组成的深度神经网络。第一个是编码器,它尝试学习将输入x映射到新特征向量(h = f(x))的函数。第二个组件是解码器,它尝试学习一个函数,该函数将学习到的特征空间映射回原始输入空间(r = g(h)。换句话说,它是一个尝试复制的神经网络)。
它的输入到输出。这通常是通过正则化的形式来实现的,例如通过强制网络将输入压缩到较低维度的空间中来实现。
学习过程可以描述为使损失函数L(x,g(f(x)))最小化,其中L是对g(f(x))进行惩罚以与x不同的函数。这种损失之一可能是均方误差(MSE)。尽管自动编码器在许多特征表示任务中表现出良好的性能,但它们并未明确保留其学习的表示中数据的距离。
UMAP
最近提出的流形学习方法是UMAP(统一流形近似和投影),该方法试图精确表示局部结构,但已被证明可以更好地整合全局结构。 此外,由于UMAP可以更好地保留全局结构,同时仍专注于保持局部邻居之间的距离,因此它可以同时拥有局部和全局方法的优点。
UMAP依赖于三个假设,即数据在黎曼流形上均匀分布,黎曼度量是局部恒定的并且流形是局部连接的。根据这些假设,可以对具有模糊拓扑结构的流形进行建模。
通过搜索具有最接近的等效模糊拓扑结构的数据的低维投影来找到嵌入。 UMAP与Isomap [25]相似,因为它使用基于k邻域的图算法来计算点的最近邻域。在较高的层次上,UMAP首先构造加权的加权图,然后从该图计算出低维布局。基于交叉熵,此低维布局已优化为具有尽可能接近原始拓扑的模糊拓扑表示。
它具有许多影响性能的重要超参数。第一个是被视为局部邻居的数量。这表示在保留多少局部结构的粒度和捕获多少全局结构之间的权衡。由于主要关注将局部结构集成到我们的嵌入中,因此通常会为邻居数量选择较低的值。第二个是目标嵌入的维数。在我们的方法中,我们将维数设置为我们要查找的簇数。 UMAP还要求嵌入空间中的点之间的最小允许间隔。此最小距离的较低值将更准确地捕获真实的流形结构,但可能导致密集的簇,从而使可视化变得困难。
N2D
通过学习自动编码嵌入的流形,特别是学习特别强调局部性的流形,可以实现更加聚类友好的嵌入。但是,由于在无人监督的环境中通常无法交叉验证超参数,因此为每种方法选择合理的默认参数非常重要。对于所有流形学习方法,将维度的数量设置为数据中聚类的数量。对于Isomap和UMAP,将邻居数视为重要参数,并将其设置为Isomap的合理默认值5,对于UMAP设置为20。 UMAP还有另一个参数,这是点之间的最小距离。认为默认最小距离为0是方法的理想选择,因为主要动机不是可视化,因此更准确地表示真实流形是首选。
方法的步骤也即N2D为:
•将自动编码器应用于原始数据以学习初始特征。
•通过使用保留局部距离的流形学习方法搜索更可聚类的流形,重新嵌入了自动编码的嵌入。
•最后,鉴于这种新的,更易于聚类的嵌入,应用了最终的浅聚类算法来发现聚类。
简而言之,也可以简单地将N2D表示为
C = FC(FM(FA(X)))
其中C是最终聚类,FC是聚类算法,FM是流形学习器,FA是自动编码器,X是原始数据。
研究三种学习方法,以了解将各种方法应用于原始数据和自动编码嵌入时的效果,并展示一种特定的方法UMAP在应用于嵌入时如何实现优异的性能。
论文为

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值