深度学习基础(四)PCA和Whitening

PCA(主成分分析)是常见的降维方法,通过计算数据集的协方差矩阵找到最大特征值对应的主要方向。在降维过程中,特征值的大小决定了维度的重要性。Whitening是对特征的预处理,目标是使特征间相关性降低,各特征的协方差为一。了解PCA与Whitening有助于理解数据降维和预处理。
摘要由CSDN通过智能技术生成

PCA(principal component analysis )即主成分分析,是一种常用的降维方法。

假设我们用降维操作处理一个二维的数据集(二维压缩成一维):

\textstyle \{x^{(1)}, x^{(2)}, \ldots, x^{(m)}\}

 \textstyle x^{(i)} \in \Re^2

PCA-rawdata.png

 在这个数据集上,我们可以计算出两个方向,我们称为主方向u1和次方向u2,其中u1的值是数据集协方差矩阵的最大特征值对应的特征向量,u2是次大特征值对应的特征向量。数据集的协方差矩阵(这个符号很像求和但不是):

\begin{align}\Sigma = \frac{1}{m} \sum_{i=1}^m (x^{(i)})(x^{(i)})^T. \end{align}

PCA-u1.png

我们现在用U=[u1 u2]处理x,由矩阵变换可知这相当于一个旋转变换:

\begin{align}x_{\rm rot} = U^Tx = \begin{bmatrix} u_1^Tx \\ u_2^Tx \end{bmatrix} \end{align}

PCA-rotated.png

上图中x轴为u1,y轴为u2

为了降维,我们只选择一个维度,比如u1,那么

\begin{align}\tilde{x}^{(i)} = x_{​{\rm rot},1}^{(i)} = u_1^Tx^{(i)} \in \Re.\end{align}

PCA-xtilde.png

这里就有一个问题了,我们怎么选择去掉的维度呢?这就要引入维度重要性的判断标准了:

\begin{align}\frac{\sum_{j=1}^k \lambda_j}{\sum_{j=1}^n \lambda_j}.\end{align}

\textstyle \lambda_1, \lambda_2, \ldots, \lambda_n是特征值按递减排列。这里的意思是数据每个维度对整体的贡献可以用特征值的大小来衡量,越大的特征值贡献越大,越应该保留。


Whitening:白化指的是对特征进行预处理,使得数据满足:

1.不同特征间相关性尽量小

2.各特征的协方差为一


参考练习:http://deeplearning.stanford.edu/wiki/index.php/Exercise:PCA_in_2D

close all

%%===========================
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值