稳健主成分分析综述

原创 2006年06月23日 17:32:00

稳健主成分分析综述

CTeX

西北工业大学数学系

(All rights  reserved. 转载请说明出处:http://blog.csdn.net/CTeX/

一、        PCA

    Principal component analysis (PCA):将多个相关变量变换成少量不相关的变量(主成分)

样本协方差矩阵:

主成分分析中参数的求解:

即为协方差矩阵的特征向量,主成分为:

 

其中

得到的主成分是相互独立,即


 

为对角元素为的对角矩阵。

 

 

二、           Robust PCA

 

    对于没有异常点的情况,上述算法是合理的。但是实际数据往往包括异常点。

1. 稳健化协方差

    Campbell[1], 1980. 通过稳健化后的协方差阵来计算特征值和特征向量。均值和协方差取为

 

其中为权,

特点:需要迭代地计算。

缺点:消耗大量时间在协方差阵的计算上。

 

2. 借助投影寻踪

 

    需要说明一点,PCA其实是PP的一个特例。令y为d维随机向量,方差为,令的分布函数,的特征值为。注意到PCA的第一个主成份为y在满足下式的方向上的投影:

易见,就是最大的特征值,为相应的特征向量。其它的方向与所有以前的方向正交。即

Ammann[2] 提出将投影寻踪的方法运用到稳健PCA中,首先求出最后一个成分轴

,它的目标函数为,其中。对,通过最小化

来达到,其中,且为稳健损失函数。

 

3. 自组织神经网络

    自组织神经网络特点:保持临近关系不变,即相距较近的两个输入向量,经过网络映射后,相应的输出向量也相距较近。

3.1  SOFM网络简介

输入层的任一单元通过权值与输出层的每个单元连接。

    假设网络的权值矩阵W已经给定,向网络输入,得到输出

                              (3.1)

全体输出单元竞争后,选出唯一的获胜单元

                                                        (3.2)

这表示输入向量x被分到所代表的这一类中。假设权值向量的长度固定:

                                            (3.3)

则上式等价于

                                    (3.4)

由上式可以想像SOFM方法就是选取M个旗杆输入向量离哪个旗杆近,就是那个旗杆下的兵.

 

训练过程:

 

    利用给定的训练样本,可以通过下述学习过程来确定网络权矩阵W

   1 网络初始化.将训练样本按出现概率排成序列,随机选取初始权矩阵,令k=0

   2 相似性检测.将样本输入网络,按式(3.2)得到获胜单元

   3 权值更新.利用适当选定的距离函数,按下式修改权值

                                   (3.5)

4 权值归一化. 将权矩阵W的各行分别乘以适当的常数,使式(3.3)成立.

5 收敛性检测. 若按某种准则权值迭代收敛,则停止;否则k增加1.转到2.

3.2 PCA运用自组织神经网络

见文献[3,4,5]

常见形式:

3.6

 

Y对应于神经网络的输入,s(t)为权值,x为输出。

 

在统计意义上(3.6)与如下能量函数相联系:

                                      (3.7)

 

其中由将训练数据投影到主成分空间得到。为重构误差向量。的重构误差。

为处理异常点,XU[5](3.7)推广为

 

其中2值随机变量,当数据为异常点时取0,第二项为罚项。

4. Torre & Black 算法

由于图像数据的维数较高,不能依靠计算协方差矩阵来求主成分,Xu的方法又有如下缺点:

1.       可能将整幅图像作为异常点;

2.       计算数据到子空间的距离用的是最小二乘投影,这种情况下一个异常点就能使结果偏差很大;

3.       对异常点的2值处理采取的是绝对拒绝或接受。

    为此,Torre & Black[6]提出一种更一般的异常点处理方法,该方法即便于计算,又建立起了M估计的联系。

 

 

                            (4.1)

 

             

其中用于异常点处理,它与图像与像素的位置有关,为罚项。

误差为

 

为每个像素位置对应的尺度参数。

选用合适的函数(4.1)等价于如下能量函数:

                (4.2)

这里取的是Geman-McClure误差函数

 

为控制稳健函数凸性的尺度参数。

5PCA 的应用——多光谱、极化图像的特征提取

降维的必要性

1、遥感卫星得到的多光谱图像在光谱图像间存在高度的相关性,这就产生了数据的冗余;

2、高维数据会增加计算复杂度。

PCA可以将相关的光谱图像集变换成不相关图像集,将原始的N幅光谱图像通过投影到光谱图像的协方差阵的特征向量,来得到N幅主成分图像。之后主成分图像间的相关性为0。第一主成分的图像质量最高。一般是运用前几个主成分进行后续的处理,如分类。结果评价标准如信噪比[7]

 

6、与PP的关系

PCA是指标为PP。选择合适的PP指标,可以用于不同的应用场合,如多光谱、极化图像的分类、目标检测。

参考文献

[1] N. A. Campbell. Robust procedures in multivariate analysis I : Robust covariance estimation. Applied Statistics, 29(3):231–237, 1980.

[2] L. P. Ammann. Robust singular value decompositions: A new approach to projection pursuit. J. of Amer. Stat. Assoc., 88(422):505–514, 1993.

[3]E. Oja. A simplified neuron model as a principal component analyzer. J. Math. Biol., 16:267–273,1982.

[4] E. Oja and J. Karhunen. On stochastic approximation of eigenvectors and eigenvalues of the expectationof a random matrix. J. Math. Anal. Appl., 106:69–84, 1985.

[5] L. Xu. Least mean square error reconstruction for self-organizing neural nets. Neural Networks,6:627–648, 1993.

[6] F.Torre and M. J. Black. Robust principal component analysis for computer vision. In 8th International Conference on Computer Vision, volume I, pages 362–349, Vancouver, Canada, July 2001.

[7] Chitroub, S., Houacine, A., Sansal, B .Principal component analysis of multispectral images using neural network. IEEE International Conference on. 2001

稀疏主成分分析(Sparse PCA)概述

Hui Zou et al. 2006年发表在《Journal of computational and graphical statistics》上的文章“Sparse principal comp...
  • u013363719
  • u013363719
  • 2014年04月03日 11:10
  • 3737

稳健估计/M估计/最小二乘法

稳健估计是在粗差不可避免的情况下,选择适当的估计方法使未知量估计尽可能减免粗差的影响,得出正常模式下的最佳估计。本文先介绍基于最小二乘法的多元线性回归理论,再引出基于M估计的加权最小二乘估计。...
  • baidu_35570545
  • baidu_35570545
  • 2017年02月15日 18:13
  • 2660

调用robustfit函数作稳健回归

调用robustfit函数作稳健回归 regress函数和regstats函数利用普通最小二乘法估计模型中的参数,参数的估计值受异常值的影响比较大。robustfit函数采用加权最小二乘法估计模型中...
  • kevin_hust
  • kevin_hust
  • 2013年12月27日 09:42
  • 1978

Sparse PCA 稀疏主成分分析

SPCA 稀疏主成分分析 算法的思路推演 和 必要的数学证明
  • zhoudi2010
  • zhoudi2010
  • 2016年12月06日 16:58
  • 8214

稳健回归(Robustness regression)

之前文章里的关于线性回归的模型,都是基于最小二乘法来实现的。但是,当数据样本点出现很多的异常点(outliers),这些异常点对回归模型的影响会非常的大,传统的基于最小二乘的回归方法将不适用。...
  • daunxx
  • daunxx
  • 2016年07月08日 09:27
  • 8197

用PCA(主成分分析法)进行信号滤波

现在网上大多是通过PCA对数据进行降维,其实PCA还有一个用处就是可以进行信号滤波。网上对此的介绍比较少,正好最近研究了一下,所以把自己的理解记录下来。...
  • wooka123
  • wooka123
  • 2016年10月21日 16:33
  • 2018

主成分分析简单例子

一、数据降维     对于现在维数比较多的数据,我们首先需要做的就是对其进行降维操作。降维,简单来说就是说在尽量保证数据本质的前提下将数据中的维数降低。降维的操作可以理解为一种映射关系,例如函数,即...
  • weixin_38208741
  • weixin_38208741
  • 2017年10月13日 22:19
  • 922

数据分析-主成分分析

用Excel做主成分分析,计算特征值特征向量
  • afujin
  • afujin
  • 2016年02月25日 11:34
  • 954

主成分分析(PCA)算法的简单推导和实例

问题1:为什么要降维?    我们在处理实际问题的时候,进行特征提取过程中,提取的特征维数太多经常会导致特征匹配时过于复杂,消耗计算资源。   问题2:降维的方法有哪些? 特征降维一般分为两类:特征提...
  • weixin_37824397
  • weixin_37824397
  • 2017年03月10日 13:49
  • 1869

R语言主成分分析总结

简单总结R语言PCA相关函数 这里是数据集 year X1 X2 X3 1951 1 -2.7 -4.3 1952 -5.3 -5.9 -3.5 1...
  • Dylan_Frank
  • Dylan_Frank
  • 2017年07月10日 16:56
  • 1707
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:稳健主成分分析综述
举报原因:
原因补充:

(最多只允许输入30个字)