PCA白化的理解和证明

一、对变量的标准差标准化(z-score标准化)

       标准差标准化是将某变量中的观察值(原数据)减去该变量的平均数,然后除以该变量的标准差。

       经过标准差标准化后,各变量将有约一半观察值的数值小于0,另一半观察值的数值大于0,变量的平均数为0,标准差为1。经标准化的数据都是没有单位的纯数量。对变量进行的标准差标准化可以消除量纲(单位)影响和变量自身变异的影响。但有人认为经过这种标准化后,原来数值较大的的观察值对分类结果的影响仍然占明显的优势,应该进一步消除大小因子的影响。尽管如此,它还是当前用得最多的数据标准化方法。

       举个例子:

       如果有一个学生在中考的数学和英语成绩分别为112和108,他的成绩好吗?是数学成绩还是英语成绩相对更好一些?通过Z值的计算就可以看出该学生的成绩距离均值的程度,也可以看出来哪个成绩相对更好一些。如果已知全市数学成绩的均值为108,标准差为21,英语成绩的均值为97,标准差为18,那么

       将Z值转化为百分数,我们可知:该学生数学成绩对应的百分数为57.53%,英语成绩对应的百分数为72.91%,通过下图可以看到该学生的数学和英语成绩在总体中的位置,同时也可以看出英语的成绩相对要好于数学成绩。

二、PCA白化

UFLDL中实现PCA白化的Maltab程序段为:

xPCAwhite = diag(1./sqrt(diag(S) + epsilon)) * U' * x;

我们可以看到,实际上PCA等价于求随机信号x的协方差矩阵的特征值分解(eigenvalue decomposition, EVD)或者奇异值分解(singular value decomposition, EVD)。

这篇文章里对上述公式进行了比较详细的证明:A geometric interpretation of the covariance matrix


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值