Sparse Principal Component Analysis

背景:

sparse PCA 较 PCA来说更具可解释性,泛化性。

部分符号

X ∈ R n × p \mathrm{X} \in \mathbb{R}^{n \times p} XRn×p
假设样本已经中心化(每一个行为一个样本)
X = [ X 1 , X 2 , … , X p ] \mathrm{X}=[X_1,X_2,\ldots, X_p] X=[X1,X2,,Xp]
X j = ( x 1 j , x 2 j , … , x n j ) X_j = (x_{1j}, x_{2j},\ldots, x_{nj}) Xj=(x1j,x2j,,xnj)
X = U D V T \mathrm{X = UDV^{T}} X=UDVT
Z = U D \mathrm{Z=UD} Z=UD为主成分(PCs)

创新点

1.将PCA问题转化为一个回归问题,利用最小角回归,可以高效求解Lasso问题。
2.二重迭代求解,sparse PCA问题。

文章梗概

The LASSO AND THE ELASTIC NET

普通的Lasso

在这里插入图片描述
Y = ( y 1 , y 2 , … , y n ) T Y=(y_1,y_2,\ldots,y_n)^{\mathrm{T}} Y=(y1,y2,,yn)T
这个方法的问题在于,当 p ≫ n p \gg n pn的时候, β ^ \hat{\beta} β^最多有n个非零项(这是为什么呢?)

The elastic net

在这里插入图片描述

将PCA改造为回归问题

定理一 考虑单个向量(需要先进行SVD)

在这里插入图片描述

定理二 单个向量(无需进行SVD版本)

在这里插入图片描述

定理三 多个向量(无需进行SVD, 非LASSO,非elastic net)

在这里插入图片描述

目标函数(最终版)

在这里插入图片描述

俩步求解

在这里插入图片描述

定理四 A given B的理论支撑(存疑)

在这里插入图片描述

算法一

在这里插入图片描述

方差计算

因为稀疏化后的向量,既不具有空间上(往往)的正交性,也不具有概率上( x T C y = 0 \mathrm{x^{T}Cy}=0 xTCy=0)的正交性。这里,Zou 考虑的是概率上的正交性,将得到的向量正交化,把余量相加得最后的方差。
在这里插入图片描述

复杂度

n > p n > p n>p n p 2 + m O ( p 3 ) np^2+mO(p^3) np2+mO(p3) #m是迭代次数

p ≫ n p \gg n pn 算法改进

简单来说,就是把step2改进下,原来需要求解一个elastic net问题,现在直接进行截断,自然会减轻不少负担。
在这里插入图片描述

##数值实验(pitprops)
在这里插入图片描述

在这里插入图片描述

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值