【机器学习笔记】PCA降维

最新推荐文章于 2023-04-18 09:20:53 发布

考研想喝奶茶

最新推荐文章于 2023-04-18 09:20:53 发布

阅读量700

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/qq_43557445/article/details/105404305

版权

PCA（主成分分析）是一种常见的降维技术，用于数据压缩和可视化。它通过找到一条直线或平面来最小化投影误差，实现特征的线性变换。PCA不依赖于输出变量，适用于无标签数据集。在选择降维的维数K时，可以通过计算投影代价与总方差的比例来决定。PCA虽然能加速学习，但并不适合防止过拟合，正则化是更好的选择。

摘要由CSDN通过智能技术生成

降维

降维也是一种无监督学习问题。当有很多特征时，有一些特征会是冗余的，可以转化为更少的特征。
也可以用降维来压缩数据，减少内存空间。

一、数据压缩

在这里插入图片描述
把3维的数据，映射到一个平面上，就转化为了2维的数据。

二、可视化数据

对于一个高达50维特征的数据集，我们不能直观地去绘制图像来观察数据，这时候就可以应用降维。
这时候可以将50维->2维，那就要用这2维特征来概括50维。例如一个国家的特征由GDP、人均GDP、环境、医疗等等，那么这时用国民幸福指数就能概括人均GDP、环境、医疗等特征，这样就把很多个特征概括成了一个特征。

三、PCA主成分分析法

1、什么是PCA
在这里插入图片描述
原来是2维的数据，现在要降维，PCA就是要找到一条直线（一个向量），使得原来的点投影到这条直线上，并且使得投影距离的平方和最小。
这个投影距离的平方和也可以称为：投影误差。（就是点到直线距离的平方和）
另外的，对于3D空间，就要找到一个平面（用两个向量表示）来投影。
在这里插入图片描述
那么，PCA和线性回归是不一样的，虽然在2维的情况下也是找一条直线去拟合。
但是，两者的最小化目标不同。

线性回归最小化的是垂直距离，也就是纵坐标的差。
PCA最小化的是点到直线的距离。
此外，线性回归有y的概念，也就是输出。而PCA中，没有y，全是特征x1,x2…xn。