RPCA原理初探

最新推荐文章于 2023-08-25 17:42:58 发布

孤舟丨笠翁

最新推荐文章于 2023-08-25 17:42:58 发布

阅读量6.7k

点赞数 33

分类专栏：算法文章标签：机器学习

本文链接：https://blog.csdn.net/qq_41851166/article/details/108923500

版权

算法专栏收录该内容

6 篇文章 0 订阅

订阅专栏

设PCA和RPCA从名字看是有一些相似性的，两者的区别在于对于误差的假设不同，PCA假设数据误差是服从高斯分布的，即数据噪声较小；RPCA假设数据噪声是稀疏的，并且可能是强的噪声
1-范数（列和范数）
将矩阵沿列方向取绝对值求和，然后擢选出数值最大的那个值作为1-范数。
假设：原有数据具有良好的数据结构即是低秩的，且只有很少一部分元素被噪声污染，即噪声是稀疏的。
设带分解矩阵为X,原有数据矩阵为A，噪声矩阵为E,则X=A+E
矩阵X的分解可描述为如下的优化问题:
在这里插入图片描述

也就是求当低秩矩阵A的秩和稀疏矩阵E的0范数均取得最小的时候所得到的对应的A和E，能够转化为这个优化问题求解，是因为我们要分解得到的矩阵A是低秩的，当A的秩取最小的时候,则可以认为A低秩，E是稀疏的，而E的0范数是指E矩阵中非零元素的个数，当非0元素的个数越少的时候，也就可认为E越稀疏，因此转化为了这个优化问题，λ指的是噪声所占的权重,是一个已知量,但是因为在这个式子中 A的秩和E的0范数是非凸的，也就是无法求出最优解，因此我们用A矩阵的核范数来近似A矩阵的秩，核范数指的是A的奇异值值和，所以当核范数越小时，可近似认为A的秩越低，而用E的1范数来近似矩阵E的0范数，是因为1范数指的是当矩阵中某一列的的元素的绝对值的和取最大的时候，这个某列的元素的绝对值的和则为1范数，那么如果这个和已经很小了，趋向于0，也就说明其他列的元素的绝对值的和也很小，也就可以近似认为非0元素的个数很少，所以问题就转换为这个式子了
在这里插入图片描述 A的核范数和E的1范数均是凸函数，而凸函数有最优解，就是当A的核范数和E的1范数取最小的时候，对应的A和E，就是我们想得到的A和E。
关于上述凸函数的求解方法有很多。我主看了增广拉格朗日乘子法 (ALM)
增广拉格朗日乘子法 (ALM)：

在这里插入图片描述

固定E,Y,u轴求解A得：

我们引进soft threshold函数对上述函数进行求解

soft threshold函数主要用于求解类似下述公式所示函数形式的优化问题
在这里插入图片描述

我们化简的时候我们要求不仅要E的1范数取最小还尽量要后面的等于0 ，这样关于E的这个函数才会达到最小那么我们就可以近似认为 E = D-A+Y/u。这样后面才会等于0。也就是当我们对D- A - Y/u进行操作的时候也就是对于E进行了操作因为近似两者相等那么D-A+Y/u 是M 也就是软阈值函数中的X 也就是D-A +Y/u 中的元素是x， λ/u是软阈值函数中的ε, ε 是足够小的, 而 λ/u也是足够小的，理论上u要足够大，那么当D- A+ Y/u中的元素大于λ/u 就会减去λ/u 直到最后收敛到0，小于-λ/u也是一样的原理那么就这样对D- A +Y/u中的元素进行迭代更新，也就是近似可以说对E进行更新，使得最后我们得到的E会是一个稀疏矩阵，接下来就是对于A进行这样的操作了，但是发现如果是对A进行对E同样的操作，则会使得A也稀疏，而我们要的不是A得稀疏，要的是A的低秩，这时候我们对A进行奇异值的分解，将分解得到的那个对角矩阵去进行和E一样的操作，则那个对角矩阵稀疏了，也就表明A的低秩，于是这样我们便得到了我们想要的A和E。

本文参考https://blog.csdn.net/weixin_45670912/article/details/103339238?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522160182234819195240457900%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=160182234819195240457900&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2_allfirst_rank_v2~rank_v28-1-103339238.pc_first_rank_v2_rank_v28&utm_term=RPCA&spm=1018.2118.3001.4187

孤舟丨笠翁

关注

33
点赞
踩
68

收藏

觉得还不错? 一键收藏
打赏
0
评论
RPCA原理初探

设PCA和RPCA从名字看是有一些相似性的，两者的区别在于对于误差的假设不同，PCA假设数据误差是服从高斯分布的，即数据噪声较小；RPCA假设数据噪声是稀疏的，并且可能是强的噪声1-范数（列和范数）将矩阵沿列方向取绝对值求和，然后擢选出数值最大的那个值作为1-范数。假设：原有数据具有良好的数据结构即是低秩的，且只有很少一部分元素被噪声污染，即噪声是稀疏的。设带分解矩阵为X,原有数据矩阵为A，噪声矩阵为E,则X=A+E矩阵X的分解可描述为如下的优化问题:也就是求当低秩矩阵A的秩和稀疏矩阵E的0范
复制链接

扫一扫