RPCA的一般公式:
但是上面的式子两个部分都时非凸的,属于NP-hard问题,所以通过松弛条件,改为求(2)的解
而本文中,作者没有通过凸优化来解决问题,而是用非凸的方法取解,主要用到的方法时Huber function和Legendre-fenchel transform.
这里简单介绍一下Huber function和Legendre-fenchel transform.
Huber function:Huber function描述的是估计过程由f引起的损失
wiki百科给出的定义时:
其中a=y-f(x),y为真实值,f(x)为预测值。当a的值较小时,误差函数时二次的,当a的值较大时,误差时线性的,a表示残差,也就是真实值于预测值之间的误差,所以将上式拓展为
Legendre-fenchel transform:
勒让德变换的公式为
一般情况下y=f(x)是x到y的映射,勒让德变换时x到其f(x)映射。
首先,作者提出一种新的非凸目标函数和p-Shrinkage方法
考虑一个简单的问题:
注意到,如果在公式2中固定住L(将L视为常数)并且用data fidelity term替换掉等式约束项,就会得到形式类似于(3)的问题,那么同样的,(3)是凸的,也就意味这可以通过求解H中的每一项来求解H,也即
其中
(4)也被熟|·|知为的莫罗包络(Moreau envelope),莫罗包络的定义为(这里|·|没有明白指什么,猜测指的是变量的一般形式,但是
λ>0为参数,其本质是一个函数f的平滑或正则化形式
(4)的直接解可以通过收缩操作(shirinkage operation)(也被称为软阈值)来求解:
(5)是|·|的近端函数,由(4)定义的t的函数同样容易求解,,并且是一个Huber function
之所以参数多出一个1是因为后面要扩展到p的情况
非凸推广
这一段的目标是找出(3)的一般形式用来解决非凸问题
通过构造一个非凸函数,以便通过shirinkage operation(5)的泛化形式来解决优化问题
构造函数
一般情况下是直接用p取代替1来表示(3)的一般形式,0<p<1,泛化出的p-Huber如下
其中
δ被计算为这个值以使得H是一个c1类型的函数(具有一阶导数的函数,c2就是二阶。。。)
现在需要将表达为莫罗函数的形式,就如同(4)中p=1的情况,这一操作通过Legendre-fenchel transform完成
现在定义
对于p<=1的情况,是凸的
从另一篇参考文献中可以得知f是自双共轭的,也就是说
整理上面的式子,可以得到最终想要的函数
定义1:
对于(10)中给出的g,称其罚函数为S的近端p范数:
G有l1范数的大部分性质但是并不是全部的,所以这里有一点名词滥用的意味
接下来给出命题2,也是全文比较重要的命题
G的近端函数由p-shirinkage操作给出(14)给出
关于p收缩的一些性质,当p<=1时,罚函数G是严格增长,非负,非凸,不平滑,满足三角不等式的
接下来引入正题
RPCA的非凸解形式由(15)给出
σ(L)是L的奇异值,同样的对15进行松弛,带入ALM,得到(16)
固定L时,由于设计出的目标函数求解S就是一个简单的p-shirinkage操作
求解L,就固定S,对σ(L)进行收缩
这也就是说在求解L时,要经过一步SVD分解,作者给出了一个快速的算法,当一个矩阵A有SVD分解
时
优化问题
的解由
给出
最后是的求解
噪声数据分解的标准化:
有一种情况时S中的噪声非常复杂,对于这种情况,通过向(16)中的S加入ΔS项来解决,ΔS是S的3d梯度空间,表示为一个时空立方体。也就是
接下来用X,Y分别替换S和ΔS,并加入松弛项
进一步引入
新的变量X,Y可以通过一个简单的p或q收缩解决
一些公式的证明在文献的附录中,但是上述过程已经提供一个大概的思路,就是用p收缩去近似l1范数,然后求解p收缩