【CV】吴恩达机器学习课程笔记 | 第14章

最新推荐文章于 2024-07-18 00:00:00 发布

Fannnnf

最新推荐文章于 2024-07-18 00:00:00 发布

阅读量295

点赞数

分类专栏：吴恩达机器学习课程笔记文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/qq_42475234/article/details/122844659

版权

吴恩达机器学习课程笔记专栏收录该内容

16 篇文章 2 订阅

订阅专栏

本系列文章如果没有特殊说明，正文内容均解释的是文字上方的图片
机器学习 | Coursera
吴恩达机器学习系列课程_bilibili

14 降维

14-1 目标I：数据压缩

在这里插入图片描述
如上图，将数据从二维压缩为一维，以表示同一个物体的长度为例， $x_1$ 为用厘米表示， $x_2$ 为用英尺表示，由于四舍五入产生的误差，坐标系中的样本坐标没有完全练成一条直线，对其进行线性拟合，得到一条直线，让这些点投影在另一条坐标轴 $z$ 上，这样，可以用一个一维的数字 $z^{(i)}$ 来表示原来的一个二维向量 $x^{(i)}$
在这里插入图片描述
如上图，将数据从三维压缩为二维，（在实际应用中可能是将10000维的数据压缩为1000维），空间中所有的点几乎都在一个平面的周围，将所有的点投射到这个平面上，用 $z_1$ 和 $z_2$ 来表示平面的两个坐标轴，这样就把一个三维空间压缩为二维平面，原来的数据用一个二维向量 $z^{(i)}$ 即可表示， $z^{(i)}$ 中有两个特征 $z_1^{(i)}$ 和 $z_2^{(i)}$

降维后的数据可以提高学习算法的运算效率并且节省磁盘存储空间

14-2 目标II：可视化

一般取k=2 or k=3来可视化数据集

14-3 主成分分析方法（PCA）

在这里插入图片描述
有这样的一个数据集，这个数据集含有二维实数空间内的样本，假设我想对数据进行降维，从二维降到一维，也就是说，我需要找到一条直线，将数据投影到这条直线上
上图中红线是一个不错的选择，因为每个点投影到直线上的距离（蓝线）都很短
所以，PCA就是寻找一个低维的东西（在这个例子中是一条直线），让数据投射在上面时的距离的平和最小，这个距离被称为投影误差
在使用PCA钱，需要先进行均值归一化和特征规范化，使得特征 $x_1$ 和 $x_2$ 均值为0，数值在可比较的范围之内
在这里插入图片描述
由二维到一维时，找到一个向量即可，三维到二维时，需要找到2个向量组成一个平面，更高维时，需要找到k个向量，让样本投影到这k个向量展开的线性子空间上

上图解释了PCA与线性回归的不同：

线性回归是左侧的坐标系，他对一条条竖直的（与y轴平行的）蓝线求和，因为线性回归计算出的误差是指预测的y值与实际y值之间的差
PCA是右侧的坐标系，他对一条条垂直于降维后的直线（在这里是直线）的蓝线求和，因为PCA计算的是实际的点与降维后直线的距离，实际的点是投影上去的

14-4 主成分分析算法（PCA）

在这里插入图片描述
首先进行数据预处理，进行均值标准化，可能要进行特征缩放
均值标准化：

按照上图先求出某个特征在所有样本中的平均值 $\mu_{j}$ ，公式为 $\mu_{j}=\frac{1}{m} \sum_{i=1}^{m} x_{j}^{(i)}$
然后把每一个旧的 $x_{j}^{(i)}$ 替换成 $x_{j}-\mu_{j}$ ，这样每一个特征的均值都为0

先计算 $\Sigma$ 矩阵（协方差），计算公式为： $\Sigma=\frac{1}{m} \sum_{i=1}^{n}\left(x^{(i)}\right)\left(x^{(i)}\right)^{T}$ ，表示为矩阵形式为 $\Sigma=\frac{1}{m} X^TX$
然后用软件库调用svd算法得到矩阵 $U$ ， $U$ 是一个n×n的矩阵，这里的n=m，因为共有n=m个样本数量，取矩阵 $U$ 的前k列就是要降维成的k维空间里的k个向量（空间是几维就需要几个向量来表示这个空间，如三维降二维时需要两个向量来表示二维空间）

如上图，把刚刚取出的k个列向量组成的矩阵命名为 $U_{reduce}$ ，则得到的低维（k维）的数据集 $z^{(i)}=U_{reduce}^Tx^{(i)}$ ，该数据集是一个k维向量

14-5 压缩重现（解压缩）

在这里插入图片描述
之前进行了这样的运算： $z=U_{reduce}^Tx$
其中 $z$ 是新得到的一维向量， $x$ 是原来的二维向量， $U_{reduce}^T$ 是通过svd算法得出的
现在要恢复二维，进行这样的运算： $x_{appox }=U_{ reduee } z$

14-6 选择主成分数量

在这里插入图片描述
上图中分子的式子称为平均平方映射误差，分母称为数据的总变差（它的意思是 “平均来看我的训练样本距离零向量多远？平均来看我的训练样本距离原点多远？），分数计算的结果为降维后的新数据与原数据的差距有多大
比如假设结果 $\le0.01$ ，则可以说有1%的差异，这个数字比较典型的取值为0.01、0.05、0.10甚至也可能是0.15 在这里插入图片描述
上图左侧是计算合适的k值的方法，这里假设与原数据有小于等于1%的误差
可以直接调用svd算法，其中输出的 $S$ 矩阵是一个对角阵
用公式 $1-\frac{\sum_{i=1}^{k} s_{i i}}{\sum_{i=1}^{n} s_{i i}} \leqslant 0.01$ ，直接判断这个公式是否成立即可，找到让这个公式成立的k的值就是合适的k的取值，或者用 $\frac{\sum_{i=1}^{k} s_{i i}}{\sum_{i=1}^{n} s_{ii}} \geqslant 0.99$ 来判断也是一样的

即使要手动选择k值，计算出差异值也可以帮助向别人解释你实现的 PCA 的性能的一个好方法，熟悉 PCA 的人们就可以通过它来更好地理解你用来代表原始数据的 100维数据近似得有多好因为有99%的差异性被保留了

14-7 应用PCA的建议

在这里插入图片描述
在使用监督学习时，也可以运用PCA来增加运算效率

先将 $x^{(1)}, x^{(2)}, \ldots, x^{(m)}$ 从原来的样本中抽出，运用PCA算法将其降维得到 $z^{(1)}, z^{(2)}, \ldots, z^{(m)}$ ，然后把降维后的 $z^{(1)}, z^{(2)}, \ldots, z^{(m)}$ 替换到原来的样本中，与y一一对应，然后进行监督学习的算法
注意：PCA只能在训练集中使用，不能用于交叉验证集和测试集，从训练集得到了 $x$ 到 $z$ 的对应关系后，可将这个对应关系应用到交叉验证集和测试集

在这里插入图片描述

不要用PCA来防止过拟合，更好的方法是用正则化
PCA是在丢失一定精度的境况下提高运算效率，它在降维时没有与y相关
在使用PCA之前首先尝试使用原数据进行运算，只有在运算速度过慢、占用内存太大、占用磁盘太大、原数据无法成功计算时才使用PCA

Fannnnf

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【CV】吴恩达机器学习课程笔记 | 第14章

目录14 降维14-1 目标I：数据压缩14-2 目标II：可视化14-3 主成分分析方法（PCA）14-4 主成分分析算法（PCA）14-5 压缩重现（解压缩）14-6 选择主成分数量14-7 应用PCA的建议14 降维14-1 目标I：数据压缩如上图，将数据从二维压缩为一维，以表示同一个物体的长度为例，x1x_1x1为用厘米表示，x2x_2x2为用英尺表.
复制链接

扫一扫