SpectralNet: Spectral Clustering Using Deep Neural Networks

OFF JUMPOL

于 2022-04-10 16:37:48 发布

阅读量1k

点赞数

分类专栏：计算数学文章标签：聚类算法机器学习

本文链接：https://blog.csdn.net/qq_34179307/article/details/124064275

版权

计算数学专栏收录该内容

7 篇文章 0 订阅

订阅专栏

论文：ICLR 2018
代码：tensorflow 1.

文章中的训练好的SpectralNet可以实现将输入点到输出图拉普拉斯矩阵的本征空间的映射，并且实现聚类。训练SpectralNet包含三个部分：

通过AutoEncoder网络对输入数据进行编码；使用孪生网络–Siamese network，对已编码的数据进行距离度量学习，得到自适应的距离；
通过在强制正交性的同时优化谱聚类目标，利用神经网络无监督地学习映射 $F_\theta$ ;
将得到的特征再用k-means分类得到最终的结果。

1. Siamese 网络

Siamese网络通常训练一组相似（正）和不相似（负）的数据点。当标记数据可用时，可以基于标记信息选择这样的对（即，具有相同标记的点对被认为是正的，而具有不同标记的点对被认为是负的）。在未标记的数据集这种情况下，可以直接从欧几里德距离或图距来学习关系矩阵例如通过“标记”点 $x_i$ ; 如果 $x_i-x_j||$ 很小则 $x_j$ 为正，否则为负。在文章中，我们从每个点的最近邻居构建正对，负对由远距离较大的点构成。因此，Siamese网络被训练以学习自适应最近邻居度量。

Siamese 是一种神经网络的框架，而不是具体的某种网络，就像seq2seq一样，具体实现上可以使用RNN也可以使用CNN。
Siamese network就是“连体的神经网络”，神经网络的“连体”是通过共享权值来实现的。(共享权值即左右两个神经网络的权重一模一样)
siamese network的作用是衡量两个输入的相似程度。孪生神经网络有两个输入（Input1 and Input2）,将两个输入feed进入两个神经网络（Network1 and Network2），这两个神经网络分别将输入映射到新的空间，形成输入在新的空间中的表示。通过Loss的计算，评价两个输入的相似度。

如果左右两边不共享权值，而是两个不同的神经网络，称为pseudo-siamese network，伪孪生神经网络。

孪生神经网络用于处理两个输入**“比较类似"的情况。伪孪生神经网络适用于处理两个输入"有一定差别”**的情况。比如，我们要计算两个句子或者词汇的语义相似度，使用siamese network比较适合；如果验证标题与正文的描述是否一致（标题和正文长度差别很大），或者文字是否描述了一幅图片（一个是图片，一个是文字），就应该使用pseudo-siamese network。也就是说，要根据具体的应用，判断应该使用哪一种结构，哪一种Loss。

损失函数

Contrastive Loss
$L=\frac{1}{2N}\sum_{n=1}^Nyd^2+(1-y)max(margin-d,0)^2$

$d=||a_n - b_n||_2$ 代表两个样本特征的欧氏距离，y为两个样本是否匹配的标签，y=1代表两个样本相似或者匹配，y=0则代表不匹配，margin为设定的阈值。

这种损失函数最初来源于Yann LeCun的Dimensionality Reduction by Learning an Invariant Mapping，主要是用在降维中，即本来相似的样本，在经过降维（特征提取）后，在特征空间中，两个样本仍旧相似；而原本不相似的样本，在经过降维后，在特征空间中，两个样本仍旧不相似。

观察上述的contrastive loss的表达式可以发现，这种损失函数可以很好的表达成对样本的匹配程度，也能够很好用于训练提取特征的模型。当y=1（即样本相似）时，损失函数只剩下 $\sum yd^2$ ,即原本相似的样本，如果在特征空间的欧式距离较大，则说明当前的模型不好，因此加大损失。而当y=0时（即样本不相似）时，损失函数为 $\sum (1-y)max(margin-d,0)^2$ ,即当样本不相似时，其特征空间的欧式距离反而小的话，损失值会变大，这也正好符号我们的要求。