PCA中 重构阈值计算公式的推理

压缩和重构

PCA本身是在对数据进行压缩,即   Z = UT*X 。(UT指的是转化矩阵U的转置)

其实我们还可以对Z进行冲重构,也就是反压缩,方法也很简单,再乘以U即可(X_approx = U*Z = U*UT*X)

 

重构阈值

在西瓜书P231中,在推导出PCA的操作步骤之后,给出了“重构阈值”的概念,简单来说就是,数据集X经过压缩后会丢失一定的数据信息,然而我们并不希望损失过多的数据信息。

因此在选择压缩维度的时候就非常讲究,要保证你不能损失太多信息,在计算公式中就是你的信息重构比例要高于重构阈值,西瓜书中只是给了这么一个简单的概念,如图所示:

其实如果只是使用的话,了解到此也就ok了,你只需要知道,(10.18)中的不等式代表了,你压缩之后数据的信息保留程度,我们需要让这个保留程度大于一定的阈值,即重构阈值

该不等式是所选择的特征值之和比上XXT全部特征值之和

 

重构信息比例的来历

然而,如果你对此产生好奇的话,就可以继续看下去?

重构信息的不等式是怎么来的,为什么就是两个特征值之和的比例

在吴恩达的网课中给出了一定的提示,网课截图如下:

 

也就是说,所谓的信息保留程度,就是原矩阵减去重构后的矩阵得到的信息,除以原矩阵的信息,得到的比例,就是损失信息的比例(即图一中所示)

而在吴恩达的课上,并没有各处进一步的推导,只是直接说,左式=右式,而右式就是西瓜书里的结论。

 

我对这个推导百思不得其解,为何左式=右式,花了很大时间推出了详细过程:

推导过程

 

*** 上面推导 tr((I-uuT)XXT(I-uuT)T)那一步,经网友反映,看不太懂,为什么下一步少了一个(I-uuT)***

*** 是因为  (I-uuT)T*(I-uuT) = (I-uuT) ;大家可以手动计算一下 ***

 

推理过程应该是无误的,欢迎大家评论点赞!

 

还有下面是我的有道云笔记,也欢迎大家评论、观看!

文档:14-5 PCA --- 降维维度的选择.note
链接:http://note.youdao.com/noteshare?id=470e55dbaf4061ad9244aa27ebaeb612&sub=65C6F7669FF94B38A49CCB73D957FF64

 

 

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值