7.4.9 低秩数据矩阵的鲁棒主成分分析 PCA

7.4.9 低秩数据矩阵的鲁棒主成分分析 PCA

由于噪声,观测到的数据矩阵为 M = L + N M = L + N M=L+N ,其中 L L L 为真实值构成的数据矩阵即理想数据矩阵, N N N 为噪声矩阵。PCA 分析是希望得到矩阵 L L L 的主方向和奇异值,但实际上我们只能得到矩阵 M M M 的主方向和奇异值。当噪声矩阵 N N N 每个元素是零均值小方差独立同分布的高斯噪声时,矩阵 M M M PCA 分析结果就是矩阵 L L L PCA 分析结果的最优近似解。

当噪声矩阵 N N N 大部分元素是零均值小方差独立同分布的高斯噪声,但小部分是大方差噪声时,矩阵 M M M 鲁棒PCA 分析结果是矩阵 L L L PCA 分析结果的较可靠近似解。

实践上还存在一种有广泛应用场景的情况,即数据矩阵 L L L 是低秩稠密矩阵,即样本点高度相关,为低秩,稠密矩阵是指矩阵 L L L 的奇异向量 u i , v i \mathbf{u}_i,\mathbf{v}_i ui,vi 的分量值不集中,因为奇异向量是单位向量,故分量绝对值最大为1,分量值不集中即分量绝对值远小于1,每个分量绝对值差不多大。噪声矩阵 N N N 大部分为0即没有噪声,只在部分位置存在噪声,位置随机均匀分布于整个矩阵,称为稀疏噪声矩阵。在这两个假设条件下,数学上证明了,不论噪声有多大,几乎都可以获得数据矩阵 L L L 和噪声矩阵 N N N 的理想值 L 0 , N 0 L_0,N_0 L0,N0 !该理论十分完美!

该理论有个有趣的应用场景:矩阵填充。我们只观测到矩阵 L L L 的大部分位置的值,其它位置的元素值未知,我们可以利用这部分已知值推测出未知值,推测值甚至可以百分之百正确,很神奇!只要矩阵 L L L 是低秩稠密矩阵,未知值随机均匀分布于整个矩阵即可。此时噪声矩阵 N N N 元素在未知值位置处可任取值,在已知值位置处为零,则其构成稀疏噪声矩阵。此时数据矩阵 L L L 元素在未知值位置处为0。根据上面模型理论,我们可以获得理想矩阵 L 0 L_0 L0 ,完成矩阵填充任务。

由于该方法很复杂,从略,感兴趣读者可参考文献:robust principal component analysis, journal of the acm, candes, 2011。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值