压缩和重构
PCA本身是在对数据进行压缩,即 Z = UT*X 。(UT指的是转化矩阵U的转置)
其实我们还可以对Z进行冲重构,也就是反压缩,方法也很简单,再乘以U即可(X_approx = U*Z = U*UT*X)
重构阈值
在西瓜书P231中,在推导出PCA的操作步骤之后,给出了“重构阈值”的概念,简单来说就是,数据集X经过压缩后会丢失一定的数据信息,然而我们并不希望损失过多的数据信息。
因此在选择压缩维度的时候就非常讲究,要保证你不能损失太多信息,在计算公式中就是你的信息重构比例要高于重构阈值,西瓜书中只是给了这么一个简单的概念,如图所示:
其实如果只是使用的话,了解到此也就ok了,你只需要知道,(10.18)中的不等式代表了,你压缩之后数据的信息保留程度,我们需要让这个保留程度大于一定的阈值,即重构阈值
该不等式是所选择的特征值之和比上XXT全部特征值之和!
重构信息比例的来历
然而,如果你对此产生好奇的话,就可以继续看下去?
重构信息的不等式是怎么来的,为什么就是两个特征值之和的比例?
在吴恩达的网课中给出了一定的提示,网课截图如下:
也就是说,所谓的信息保留程度,就是原矩阵减去重构后的矩阵得到的信息,除以原矩阵的信息,得到的比例,就是损失信息的比例(即图一中所示)
而在吴恩达的课上,并没有各处进一步的推导,只是直接说,左式=右式,而右式就是西瓜书里的结论。
我对这个推导百思不得其解,为何左式=右式,花了很大时间推出了详细过程:
推导过程
*** 上面推导 tr((I-uuT)XXT(I-uuT)T)那一步,经网友反映,看不太懂,为什么下一步少了一个(I-uuT)***
*** 是因为 (I-uuT)T*(I-uuT) = (I-uuT) ;大家可以手动计算一下 ***
推理过程应该是无误的,欢迎大家评论点赞!
还有下面是我的有道云笔记,也欢迎大家评论、观看!
文档:14-5 PCA --- 降维维度的选择.note
链接:http://note.youdao.com/noteshare?id=470e55dbaf4061ad9244aa27ebaeb612&sub=65C6F7669FF94B38A49CCB73D957FF64