吴恩达《机器学习》笔记——第十四章《降维》

肥胖边缘疯狂蹦迪

已于 2022-05-23 15:30:48 修改

阅读量702

点赞数

分类专栏：机器学习文章标签：机器学习人工智能算法

于 2022-05-19 20:37:51 首次发布

本文链接：https://blog.csdn.net/qq_43572747/article/details/124865913

版权

机器学习专栏收录该内容

18 篇文章 3 订阅

订阅专栏

14、Dimensionality Reduction（降维）

14.3 Principal Component Analysis （主成分分析）
14.7 Advice for applying PCA（应用PCA的建议）

“降维”的只管理解就是在给定的数据样本空间时，找一个更低维度空间或者是数据样本空间中的一个超平面（直线的高维推广）对所有的样本进行恰当的表达。

14.3 Principal Component Analysis （主成分分析）

主成分分析（Principal Component Analysis，简称PCA）是最常用的一种降维方法。具体的分析推到建议看西瓜书。

PCA算法伪代码如下：
在这里插入图片描述
降维后低维空间的维数 $d^{’}$ 通常是由用户事先指定，或通过在 $d^{’}$ 不同的低维空间中对 $k$ 近邻分类器（或其他开销较小的学习器）进行交叉验证来选取较好的 $d^{’}$ 值。对PCA，还可以从重构的角度设置一个重构阈值，例如 $t=95\%$ ，然后选取使下式成立的最小 $d^{’}$ 值： $\frac{\sum_{i=1}^{d^{'}}\lambda_i}{\sum_{i=1}^d\lambda_i}$ 其中 $\lambda$ 为 $XX^T$ 的特征值（奇异值）

原先样本点 $x_i$ 在低维坐标系中的投影 $z_i=(z_{i1},z_{i2},\cdots,z_{id^{'}})^T$ ，其中 $z_{ij}=w_j^Tx_i$ 是 $x_i$ 在低维坐标系下第 $j$ 维的坐标。若基于 $z_i$ 来重构 $\hat{x_i}$ ，则会得到 $\hat{x_i}=\sum_{j=1}^{d^{'}}z_{ij}w_j$ 。即 $\hat{X}=WZ=WW^TX$

注：在进行PCA前，别忘了对数据样本进行特征缩放。对称矩阵的奇异值分解和特征值分解是一样的。

14.7 Advice for applying PCA（应用PCA的建议）

运用PCA算法降低特征的维度，在某些情况下可以加快学习算法的执行效率。对于有监督学习，数据样本 $(x, y)$ ，我们可以把训练集 $x_train,y_train)$ 的 $x_train$ 运用PCA降低特征的维度，这样就可以加速训练。注：PCA只用在训练集上，但是可以直接把PCA分解后的W直接应用到验证集和测试集上。

注：1，不要使用PCA来防止过拟合，最好还是用正则项。2，不要随便使用PCA，只有在学习算法运行太慢或者需要的内存太大时，才考虑使用PCA降低特征维度来加速和减少内存使用。

肥胖边缘疯狂蹦迪

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
吴恩达《机器学习》笔记——第十四章《降维》

14、Dimensionality Reduction（降维）14.3 Principal Component Analysis （主成分分析）14.7 Advice for applying PCA（应用PCA的建议）“降维”的只管理解就是在给定的数据样本空间时，找一个更低维度空间或者是数据样本空间中的一个超平面（直线的高维推广）对所有的样本进行恰当的表达。14.3 Principal Component Analysis （主成分分析）主成分分析（Principal Component Analy
复制链接

扫一扫

专栏目录