稳健主成分分析综述

原创 2006年06月23日 17:32:00

稳健主成分分析综述

CTeX

西北工业大学数学系

(All rights  reserved. 转载请说明出处:http://blog.csdn.net/CTeX/

一、        PCA

    Principal component analysis (PCA):将多个相关变量变换成少量不相关的变量(主成分)

样本协方差矩阵:

主成分分析中参数的求解:

即为协方差矩阵的特征向量,主成分为:

 

其中

得到的主成分是相互独立,即

 

为对角元素为的对角矩阵。

 

 

二、           Robust PCA

 

    对于没有异常点的情况,上述算法是合理的。但是实际数据往往包括异常点。

1. 稳健化协方差

    Campbell[1], 1980. 通过稳健化后的协方差阵来计算特征值和特征向量。均值和协方差取为

 

其中为权,

特点:需要迭代地计算。

缺点:消耗大量时间在协方差阵的计算上。

 

2. 借助投影寻踪

 

    需要说明一点,PCA其实是PP的一个特例。令y为d维随机向量,方差为,令的分布函数,的特征值为。注意到PCA的第一个主成份为y在满足下式的方向上的投影:

易见,就是最大的特征值,为相应的特征向量。其它的方向与所有以前的方向正交。即

Ammann[2] 提出将投影寻踪的方法运用到稳健PCA中,首先求出最后一个成分轴

,它的目标函数为,其中。对,通过最小化

来达到,其中,且为稳健损失函数。

 

3. 自组织神经网络

    自组织神经网络特点:保持临近关系不变,即相距较近的两个输入向量,经过网络映射后,相应的输出向量也相距较近。

3.1  SOFM网络简介

输入层的任一单元通过权值与输出层的每个单元连接。

    假设网络的权值矩阵W已经给定,向网络输入,得到输出

                              (3.1)

全体输出单元竞争后,选出唯一的获胜单元

                                                        (3.2)

这表示输入向量x被分到所代表的这一类中。假设权值向量的长度固定:

                                            (3.3)

则上式等价于

                                    (3.4)

由上式可以想像SOFM方法就是选取M个旗杆输入向量离哪个旗杆近,就是那个旗杆下的兵.

 

训练过程:

 

    利用给定的训练样本,可以通过下述学习过程来确定网络权矩阵W

   1 网络初始化.将训练样本按出现概率排成序列,随机选取初始权矩阵,令k=0

   2 相似性检测.将样本输入网络,按式(3.2)得到获胜单元

   3 权值更新.利用适当选定的距离函数,按下式修改权值

                                   (3.5)

4 权值归一化. 将权矩阵W的各行分别乘以适当的常数,使式(3.3)成立.

5 收敛性检测. 若按某种准则权值迭代收敛,则停止;否则k增加1.转到2.

3.2 PCA运用自组织神经网络

见文献[3,4,5]

常见形式:

3.6

 

Y对应于神经网络的输入,s(t)为权值,x为输出。

 

在统计意义上(3.6)与如下能量函数相联系:

                                      (3.7)

 

其中由将训练数据投影到主成分空间得到。为重构误差向量。的重构误差。

为处理异常点,XU[5](3.7)推广为

 

其中2值随机变量,当数据为异常点时取0,第二项为罚项。

4. Torre & Black 算法

由于图像数据的维数较高,不能依靠计算协方差矩阵来求主成分,Xu的方法又有如下缺点:

1.       可能将整幅图像作为异常点;

2.       计算数据到子空间的距离用的是最小二乘投影,这种情况下一个异常点就能使结果偏差很大;

3.       对异常点的2值处理采取的是绝对拒绝或接受。

    为此,Torre & Black[6]提出一种更一般的异常点处理方法,该方法即便于计算,又建立起了M估计的联系。

 

 

                            (4.1)

 

             

其中用于异常点处理,它与图像与像素的位置有关,为罚项。

误差为

 

为每个像素位置对应的尺度参数。

选用合适的函数(4.1)等价于如下能量函数:

                (4.2)

这里取的是Geman-McClure误差函数

 

为控制稳健函数凸性的尺度参数。

5PCA 的应用——多光谱、极化图像的特征提取

降维的必要性

1、遥感卫星得到的多光谱图像在光谱图像间存在高度的相关性,这就产生了数据的冗余;

2、高维数据会增加计算复杂度。

PCA可以将相关的光谱图像集变换成不相关图像集,将原始的N幅光谱图像通过投影到光谱图像的协方差阵的特征向量,来得到N幅主成分图像。之后主成分图像间的相关性为0。第一主成分的图像质量最高。一般是运用前几个主成分进行后续的处理,如分类。结果评价标准如信噪比[7]

 

6、与PP的关系

PCA是指标为PP。选择合适的PP指标,可以用于不同的应用场合,如多光谱、极化图像的分类、目标检测。

参考文献

[1] N. A. Campbell. Robust procedures in multivariate analysis I : Robust covariance estimation. Applied Statistics, 29(3):231–237, 1980.

[2] L. P. Ammann. Robust singular value decompositions: A new approach to projection pursuit. J. of Amer. Stat. Assoc., 88(422):505–514, 1993.

[3]E. Oja. A simplified neuron model as a principal component analyzer. J. Math. Biol., 16:267–273,1982.

[4] E. Oja and J. Karhunen. On stochastic approximation of eigenvectors and eigenvalues of the expectationof a random matrix. J. Math. Anal. Appl., 106:69–84, 1985.

[5] L. Xu. Least mean square error reconstruction for self-organizing neural nets. Neural Networks,6:627–648, 1993.

[6] F.Torre and M. J. Black. Robust principal component analysis for computer vision. In 8th International Conference on Computer Vision, volume I, pages 362–349, Vancouver, Canada, July 2001.

[7] Chitroub, S., Houacine, A., Sansal, B .Principal component analysis of multispectral images using neural network. IEEE International Conference on. 2001

相关文章推荐

PCA主成分分析

  • 2017年10月30日 15:55
  • 244KB
  • 下载

主成分分析(PCA)算法

  • 2017年11月10日 16:19
  • 11KB
  • 下载

运用PAC(主成分分析法)进行人脸识别的MATLAB 代码实现

PCA(主成分分析算法)出现的比较早。 PCA算法依赖于一个基本假设:一类图像具有某些相似的特征(如人脸),在整个图像空间中呈现出聚类性,因而形成一个子空间,即所谓特征子空间,PCA变换是最佳正交变...

主成分分析PCA函数的详细代码

  • 2017年10月11日 20:22
  • 2KB
  • 下载

PCA(主成分分析)算法

  • 2015年04月16日 18:30
  • 1KB
  • 下载

R语言主成分和因子分析篇

主成分分析(PCA)是一种数据降维技巧,它能将

MATLAB实现主成分分析

  • 2015年09月20日 16:48
  • 2KB
  • 下载

广义主成分分析GPCA

  • 2016年04月26日 14:24
  • 10KB
  • 下载

R语言主成分分析之SVD

#全数据集PCA all_col_mean = colMeans(data.learn.x) #计算训练集每一列的均值 data.learn.PCAx = data.learn.x ...

主成分分析前言

  • 2015年11月04日 22:42
  • 227KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:稳健主成分分析综述
举报原因:
原因补充:

(最多只允许输入30个字)