无监督大图嵌入

无监督大图嵌入

这里先介绍几个重要的概念

局域保持投影(LPP)是一种降维方法,旨在保持数据局部关系。它能够将高维数据映射到低维空间,同时尽可能保持数据间的相似性。具体来说,如果两个数据点在原始高维空间中相似度高,即距离近,那么在降维后的低维空间中,这两个点仍然保持相近的关系。

LPP方法的核心思想是通过优化目标函数来实现降维。目标函数通常定义为原始空间中近邻点在降维后距离的平方和最小化。在优化过程中,寻找一个投影矩阵,使得原始数据通过该矩阵投影到低维空间后,保持局部的邻近关系。

谱分析是对相似矩阵进行特征值分解的过程,它可以将数据从高维空间映射到低维空间,同时保留数据的重要结构和特征。在降维过程中,通过优化目标函数,可以找到一个最优的投影矩阵,使得原始数据通过该矩阵投影到低维空间后,能够保持数据的局部关系和全局结构

由于A是PSD(半正定矩阵),所以存在一个正交矩阵Q和一个对角矩阵D(由A的特征值组成的对角矩阵),使得A = QDQT

。进一步,由于A的秩为p,D的对角线上的p个非零元素对应的特征向量构成A的一组正交基。因此,A可以分解为p个特征向量的线性组合,每个特征向量都是D的对角线上的一个非零元素对应的特征向量。

双随机矩阵是一个非常特别的矩阵,它的特点是矩阵的元素在每一行和每一列中出现的概率都是相同的。

一 背景

给定数据矩阵X = [x1,⋯xn]TRn*d

,其中x1Rd

表示第i个样本,设A∈Rd*d

为k近邻法构造的相似矩阵,aij

xi

xj

之间的相似度。我们现在寻求找到低维嵌入,即YRn*p

,其中p是降维,LE通过解决以下问题进行降维(Belkin和Niyogi 2001):

其中DRn*n

为对角矩阵,第i项定义为j=1naij

, L = D−A为拉普拉斯矩阵(Chung 1997)。为了简单起见,问题(1)是比率跟踪表示(Wang et al . 2007)。问题(1)可以用广义的Rayleigh-Ritz定理求解,其解由D-1

L的p个特征向量对应p个最小特征值构成。LE是一种非线性方法,不能直接处理新数据。

他和Niyogi提出LPP来处理样本外问题(He and Niyogi 2003)。LPP采用投影函数W∈Rn*p

,将Y替换为XW。然后,降维为:

LPP可以看作是LE的线性化扩展,它对于训练数据和新数据都是一种成功的计算效率高的方法。

Cai等人随后提出了一种不同的线性化扩展方法,称为SR (Cai, He, and Han, 2007)。SR首先通过求解问题(1)得到低维嵌入Y*

,然后通过求解回归问题得到投影矩阵:

二 SR和LPP之间的等价性

给定双随机相似矩阵,我们得到度矩阵D实际上是I。将L = D−A和D = I代入LPP公式,即问题(2),我们得到:

设相似矩阵A为秩为p的PSD,则A可通过特征值分解分解为:

其中Λ是对角矩阵(由A的特征值组成的对角矩阵),并且由(7)很容易得到

式中,FpRn*d

为F的前p列, ΛpRp*d

= diag(λ1

,

 λp

)。然后,将式(8)代入问题(6),得到

问题(9)是具有一定相似矩阵A的LPP的表述

另一方面,给定这样的相似矩阵A, LE即问题(1)的解实际上是Fp

,因此,SR即问题(4)的表述可以改写为

有趣的是,尽管LPP和SR是两种不同的基于谱的降维方法,但可以验证问题(9)的解空间与问题(10)的解空间是精确等价的,即当相似矩阵A为PSD,双随机且秩为p时,LPP等价于SR。在进一步证明之前,我们首先展示了一个有趣的LPP观察结果:

引理1.如果w

是LPP的最优解,即问题(2),w

R仍然是最优解,其中R Rp*p

是一个任意可逆矩阵。

这意味着w

 R也使问题(2)达到最优值。这样,我们就完成了证明。然后,作为一个简单的推论,我们可以得到LE,即问题(1),也具有相同的性质,因此我们得到LE和SR的引理为

引理2.给定分别作为LE(即问题(1))和SR(即问题(4))的最优解的Fp

w

, Fp

R和w

R也分别是LE和SR的最优解,其中R Rp*p

是任意可逆矩阵

证明.我们可以很容易地检查,如果Fp

是LE的最优解,Fp

R仍然是最优解,证明类似于引理1。然后我们只需要验证w

r是以下问题的最优解: 证明。我们可以很容易地检查,如果Fp

是LE的最优解,Fp

R仍然是最优解,证明类似于引理1。然后我们只需要验证w

r是以下问题的最优解:

为了看到这一点,注意到w

是问题(4)的最优解,我们得到问题(4)的导数为XT

 (Xw

Fp

) = 0,然后我们写出问题(12)的导数并代入W = w

R

因此,w

r是问题(12)的最优解,证明完成

然后给出一个简单的引理:

引理3.假设Λ是对角线且是正定的,则A-1

BT

的列空间与A-1

B的列空间完全相同。

证明.一方面,这很容易知道

其中Span(M)表示由矩阵M的列张成的空间。

另一方面,由于Λ是正定的,我们可以得到

式中,rank(M)表示矩阵M的秩。

结合式(14)和式(15),我们知道这两个空间是完全相同的,因此我们完成了证明。

根据引理1,引理2和引理3,我们得到以下定理:

定理1.如果对称相似矩阵A是双随机的,PSD且秩为p,则LPP等价于SR。

证明.如前所述,有了这样特定的相似矩阵,问题(9)和问题(10)实际上分别是LPP和SR。根据引理1和引理2,问题(9)和问题(10)的解空间分别是(XT

x)-1XTFp

ΛpFpT

X和(XT

x)-1XTFp

的列空间。并且,根据引理3,我们知道这两个矩阵的列空间是相同的,即LPP的解空间与SR的解空间(指的是所有解的集合)是相同的,从而完成了证明。

我们进一步证明了正则化LPP,即问题(3),等价于正则化SR,即问题(5),通过以下定理:

定理2.如果相似矩阵A是对称、双随机、PSD且秩为p,则正则化LPP即问题(3)等价于正则化SR即问题(5)。

三 无监督大图嵌入

在本节中,我们将展示建议的ULGE。ULGE的开始思路与LPP相似,但根据定理1,它是由一种类似SR的算法来求解的。

3.1 基于锚点策略的相似矩阵构

定理1要求相似矩阵A必须是双随机、PSD且秩为p,而传统的基于谱的方法通常采用k近邻法构造相似矩阵,不仅耗时,而且得到的相似矩阵几乎是全秩的非双随机。然而,双随机、PSD和rank-p相似矩阵难以同时构造,为此,我们提出了一种两步法,首先构造双随机、PSD相似矩阵,然后用它来构造rank-p相似矩阵

根据最近对可扩展半监督学习的研究(Liu, He, and Chang 2010),我们采用了一种高效的方法来构建这种相似矩阵,即基于锚点的策略。通常,基于锚点的策略首先寻找m个锚点,其中m

n,然后计算锚点与原始样本之间的距离。

基于锚点的策略中最重要的一步是锚点生成,主要有随机选择和k-means生成两种方法。通过简单的随机抽样生成锚点是有效的,然而,我们仍然更倾向于使用k-means来生成更具代表性的锚点,以获得更好的性能。需要注意的是,如果数据太大,k-means可能会花费太多的时间,据我们所知,可以采用两种简单的策略来加快这一过程,即提前停止迭代(Chen and Cai 2011)和进行下采样作为预处理,我们在本文中采用了下采样策略。

我们还想强调的是,对于k-means锚点生成,这两种加速策略都不能保证生成锚点的质量,我们未来的工作之一是尝试使用一种新的基于平衡k-means的分层k-means算法生成具有代表性的锚点,该算法有望具有高性能和低计算复杂度。首先,我们设计了一种平衡k-means算法,该算法可以将数据分成两个具有相同样本数量的聚类,然后对数据分层执行平衡k-means算法以获得代表性锚点。用t表示迭代次数,该算法的计算复杂度为O(and log(m)t),相对于复杂度为O(ndmt)的k-means方法有很大的优势。请注意,这种锚生成方法可以很容易地应用于加速其他基于图的学习方法,例如哈希(Li, Hu, and Nie 2017),聚类(Ng, Jordan, and Weiss 2001),半监督学习(Zhou et al 2003;Zhu 2008)、降维(Nie et al . 2011)、RBF网络(Schwenker, Kestler, and Palm 2001)等。

3.2 基于锚点的相似矩阵

这篇论文中使用的方式是BKHK算法去求得相似矩阵A。

3.3基于锚点的相似矩阵的低秩逼近

这里是采用一个最优化问题来得到最优化矩阵

  • 8
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值