机器学习日记（11）

最新推荐文章于 2024-08-28 09:42:51 发布

Matthewww

最新推荐文章于 2024-08-28 09:42:51 发布

阅读量163

点赞数

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/Matthewww/article/details/122786314

版权

本文详细介绍了主成分分析（PCA）这一降维技术，包括降维的动机——数据压缩和可视化，PCA问题的阐述，PCA算法步骤，以及如何选择主成分的数量。PCA通过对数据进行线性变换，找到最小化投射误差的方向向量，从而实现数据的压缩和可视化。文章还讨论了PCA与线性回归的区别，并提醒读者PCA不适用于减少过拟合，而正则化是更好的选择。

摘要由CSDN通过智能技术生成

机器学习日记（11）

降维(Dimensionality Reduction)

动机一：数据压缩（Data Compression）

第二种类型的无监督学习问题称为降维。有几个不同的的原因使你可能想要做降维。一是数据压缩，数据压缩不仅允许我们压缩数据，并因此使用较少的计算机内存或磁盘空间，而且它也让我们加快我们的学习算法。但首先，让我们谈论降维是什么。以下为两个例子：

在这里插入图片描述
假设我们未知两个的特征：𝑥₁:长度：用厘米表示；𝑥₂：是用英寸表示同一物体的长度。所以，这给了我们高度冗余表示，也许不是两个分开的特征𝑥1和𝑥2，这两个基本的长度度量实质是一样的，我们想要做的是减少数据到一维，只有一个数测量这个长度；并且，我们希望将测量的结果作为我们机器学习的特征。现在的问题的是，两种仪器对同一个东西测量的结果不完全相等（由于误差、精度等），而将两者都作为特征有些重复，因而，我们希望将这个二维的数据降至一维。