Fast Unsupervised Projection for Large-Scale Data

Fast Unsupervised Projection for Large-Scale Data

abstract

传统的降维方法通常无法处理非线性数据,并且具有较高的计算复杂度。为了解决这些问题,提出了一种快速无监督投影(FUP)方法。FUP的简化图由样本和代表点构成,其中通过迭代优化选择的代表点的数量小于样本的数量。通过生成所呈现的图,证明了大规模数据可以在许多场景中更快地投影。然后,提出了正交FUP(OFUP)方法来保证投影矩阵的正交性。具体而言,OFUP方法在一定参数设置下被证明与PCA等效。

introduction

降维(DR)用来解决数据从高维特征空间映射到低维子空间的问题。

为了能解决非线性数据的降维问题,提出了两种主要策略:基于核的方法、基于流行学习的方法

基于流形学习的方法能够保持样本的邻域结构。

流形算法的主要思想是能够学习高维空间中样本的局部邻域结构,并寻找一种子空间能够保留这种流行结构,

使得样本在投影到低维空间后,得到比较好的局部近邻关系。(原始空间中的两个点距离比较近,投影后仍然比较近)

局部保持投影(LPP)

LLE和PCAN都可以降低维数并保持样本的局部邻域结构。本文提出了快速无监督投影(FUP)和正交FUP(OFUP)方法,以保持流形学习的优势并简化计算。该方法基于LPP,选择数量小于样本数量的代表点,然后用样本和代表点构造亲和矩阵,通过迭代求解得到最优投影矩阵。这些方法已经在多个数据集上进行了测试,验证了方法的有效性。

related work

d 、 d ′ d、d^{'} dd分别表示原始空间和子空间的维度 n是样本数量 m是代表性点的数量

样本空间 X = x 1 , x 2 , … , x n ∈ R d × n X = {x_1,x_2,\dots,x_n} \in R^{d \times n} X=x1,x2,,xnRd×n 每列是一个样本 投影矩阵 W ∈ R d × d ′ ( d ′ < d ) W \in R^{d \times d^{'}}(d^{'}<d) WRd×d(d<d)

相似矩阵定义为 P ∈ R n × n P \in R^{n \times n} PRn×n

kmeans

Locality Preserving Projections

局部保持投影

作为经典的流形学习方法,LPP在降维的许多应用场景中表现良好。然而,LPP使用给定的图进行计算,其性能受图的质量限制。所提出的方法改进了基于LPP的样本图的构造,取得了较好的效果。

所谓流形,是指高维样本空间中呈现的一种低维的局部性的结构。局部保留投影(LPP)方法是通过构建空间中各样本对之间的远近亲疏关系,并在投影中保持这种关系,在降维的同时保留空间中样本的局部邻域结构, 即在低维空间中最小化近邻样本间的距离加权平方和,也可以理解为尽量避免样本集的发散,保持原来的近邻结构

通过解决以下问题,LPP可以学习投影矩阵W。投影矩阵能够将样本从原始空间映射到较低的d维子空间,并保留数据的局部邻域信息。

在这里插入图片描述

P是亲和图 其中的元素定义为:

在这里插入图片描述

D ∈ R n × n D \in R^{n \times n} DRn×n是对角矩阵 度矩阵的第i个对角元素对应于相似矩阵第i行的和

问题2可以简化为:

在这里插入图片描述

L = D-P 是拉普拉斯矩阵

问题2可以转化为:

在这里插入图片描述

(5)的最优解满足如下等式:

在这里插入图片描述

推导:https://blog.csdn.net/qq_18343569/article/details/50144643

基于自适应领域的投影聚类

聂飞平的PCAN:https://blog.csdn.net/qq_45178685/article/details/127435986

在这里插入图片描述

快速无监督投影法

样本矩阵: X = { x 1 , x 2 , … , x n } ∈ R d × n X=\{x_1,x_2,\dots,x_n \} \in R^{d \times n} X={x1,x2,,xn}Rd×n

每个列向量代表一个样本

我们希望学习投影矩阵 W ∈ R d × d ′ W \in R^{d \times d^{'}} WRd×d将样本映射为d’(d’<d)维子空间,并保留样本的类别信息

建立相似矩阵P是为了帮助我们学习理想的投影矩阵W。

motivation

问题8中 秩约束是为了解决聚类问题

本文中 我们关注的是降维问题 可以移除约束简化问题 因此,通过处理该问题可以得到投影矩阵W

在这里插入图片描述

S t = X H X T ∈ R d × d S_t = XHX^T \in R^{d \times d} St=XHXTRd×d 是全局散度矩阵

约束 W T S t W = I W^TS_tW=I WTStW=I可以确保子空间数据在统计上线性独立。

pij是i个样本和第j个样本之间的相似性

需要注意的是,流形学习方法经常消耗大量的计算资源,这使得流形学习法的应用受到具有大量样本的数据集的限制。

新的相似矩阵定义为 P ∈ R n × m P \in R^{n \times m} PRn×m 由n个样本点和m个代表性的点构成 问题9可以优化成:

在这里插入图片描述

M ∈ R d × m M \in R^{d \times m} MRd×m

pi j是矩阵P的元素,表示xi和m j之间的相似性。

采用迭代优化来求解。

优化算法

有三个迭代变量:W、P和M。

为了得到这些参数的最优解,当其中一个被求解时,剩下的两个变量需要固定。继续迭代优化,直到目标函数收敛。

  1. 固定P M 求解W 问题10等价为:

在这里插入图片描述

为了便于求解,需要将问题(11)转化为矩阵形式。

D是度矩阵 D = d i a g ( ∑ j = 1 m p i j ) = I ∈ R n × n , D c o l = d i a g ( ∑ i = 1 n p i j ) ∈ R m × m D = diag(\sum_{j=1}^m p_{ij}) = I \in R^{n \times n},D^{col} = diag(\sum_{i=1}^np_{ij}) \in R^{m \times m} D=diag(j=1mpij)=IRn×n,Dcol=diag(i=1npij)Rm×m

有以下定理:

在这里插入图片描述

……

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值