PCA算法 | 数据集特征数量太多怎么办？用这个算法对它降维打击！

最新推荐文章于 2022-09-12 13:15:15 发布

TechFlow

最新推荐文章于 2022-09-12 13:15:15 发布

阅读量2.7k

点赞数 3

分类专栏：机器学习文章标签：机器学习 python 算法

本文链接：https://blog.csdn.net/TechFlow/article/details/107179581

版权

本文深入探讨PCA（主成分分析）算法，解释其原理和实现过程，以及在机器学习中降维的重要性。PCA通过对数据进行坐标变换，寻找包含最大方差的方向，以减少数据维度。通过实例验证，PCA在590维数据降至10维后，模型性能几乎不受影响，展示了PCA在处理高维数据时的有效性。

摘要由CSDN通过智能技术生成

本文始发于个人公众号：TechFlow，原创不易，求个关注

今天是机器学习专题的第27文章，我们一起来聊聊数据处理领域的降维(dimensionality reduction)算法。

我们都知道，图片格式当中有一种叫做svg，这种格式的图片无论我们将它放大多少倍，也不会失真更不会出现边缘模糊的情况。原因也很简单，因为这种图片是矢量图，一般的图片存储的是每一个像素点的颜色值，而在矢量图当中，我们存储的是矢量，也就是起点终点以及颜色。由于矢量图只记录起点终点，所以无论我们如何放大，图片都不会失真，而传统的图片就做不到这一点。

其实svg就相当于图片的降维，我们将上百万的像素点简化成了若干个矢量完成了图片的存储，大大减少了数据的规模。机器学习领域中的降维算法其实也是差不多的原理。

背景与原理

现在降维算法这个词已经越来越少听到了，在面试当中也很少被提及，这是有时代因素的。因为现在的计算资源以及存储资源越来越廉价了，在以前很难承担的计算量，现在变得越来越轻松。所以相对而言，降维算法没有之前热门了，也越来越少在面试当中出现。

从现状倒推回从前，我们大概可以猜到，在若干年以前，当我们面临海量无法承担的数据的时候，降维算法是多么的重要。因为，我们都知道，机器学习训练的速度和它使用的数据量有这非常密切的关系，使用10维特征和使用100维特征的模型的收敛速度至少是10倍以上的差距。那么，自然而然地我们就会想到，如果有某种方法可以将100维的数据”压缩“成10维，该有多好？

但问题来了，数据不是实体，我们真的可以随意压缩吗，这其中的原理是什么呢？

最根本的原理是既然特征可以用来训练模型，那么特征的分布和label的分布必然是有一定的内在联系的。也就是说数据并不是随意分散的，而是彼此之间有联系的。我们各种各样的压缩算法，本质上都是利用了数据之间的关联。

举个不是非常恰当，但是很直观的例子。假设说我们现在有三个特征，分别是一个人的考试成绩、智商以及努力程度。我们会很明显地发现，考试成绩和智商以及努力程度这两个特征高度相关。如果我们能够找到它们之间的关联，我们完全可以去掉考试成绩这个特征，而通过智商、努力程度和它的这种关联来推算出这个值来。当然既然是推算出来的，显然会和原本的值有一定的误差，这也是不可避免的。

从这个例子当中，我们可以明确两点，首先，压缩数据是利用的数据分布的关联或者是特性，如果是完全随机的数据是无法降维压缩的。其次，降维压缩必然会带来信息损失，也就是误差，这是不可避免的。

降维算法

降维压缩的算法有好几种，常见的有PCA、ICA和FA，下面我们来简单介绍一下。

首先是PCA，PCA的英文全称是Principal Component Analysis即主成分分析。这种方法的主要原理是对数据进行坐标变换，即将数据从原来的坐标系更换到新的坐标系。新的坐标轴是通过最大方差理论推导得到的，即新的坐标轴包含了原始数据中大部分的方差，这里的方差可以理解成信息。

ICA的英文是Independent Component Analysis即独立成分分析，在这个算法当中它假设数据是通过N个数据源生成的。假设数据是这N个数据源数据混合观察的结果。这些数据源在统计上是互相独立的，如果数据源的数目少于原始特征的数目，也可以完成降维。

最后是FA即Factor Analysis即因子分析。在因子分析当中，我们假设样本当中存在一些隐变量，我们假设样本是这些隐变量和一些噪音的线性组合。那么只要这些隐变量的数量少于原始特征的数量，我们就可以用这些隐变量来作为新的数据从而实现降维。

这三种降维算法虽然各不相同，但是核心的思路都是一致的。都是假设数据的分布满足某一种特性，通过利用这一种特性来对数据进行压缩。这其中使用范围最广的是PCA，所以我们着重来了解一下PCA的原理以及实现。

理论推导

关于PCA算法有两种通俗的解释，一种是最大方差理论，另外一种是最小化降维损失，这两个思路推导出的结果是一样的。相比之下，最大方差理论更加容易理解一些，所以我们就选择最大方差理论来做个简单的解释。

在信号系统当中，我们普遍认为信号具有较大的方差，而噪音拥有较小的方差。信噪比就是信号与噪声的方差比，这个比值越大越好，越大说明噪音越小，信号的质量越高。比如下图当中的这个数据分布，我们可以在原始数据当中找到两个正交轴，根据方差最大理论，我们会把方差大的那个轴看成是信号，方差小的看成是噪音。

根据这个思路，最好的k维特征是将n维的样本转换成k维坐标之后，拥有最大方差的k个。

协方差

到这里，我们虽然知道了要获取方差最大的方向作为新的坐标轴，但是如果我们直接去计算的话是会有问题的。最大的问题在于我们没办法选出K个来，如果只是选择类似的K个方向，这K个轴的信息都差不多，会丢失大量的信息。所以我们不仅要选择K个轴，而且要保证这K个轴尽可能线性无关。

要做到线性无关，也就是说这K个轴应该是彼此正交的。如果两个轴正交，可以进一步得到这两个轴的协方差为零。为了简化运算，我们可以先让原始数据全部减去各自特征的均值。在去除均值之后，两个特征的协方差可以表示为：

$\frac{1}{m}\sum_{i=1}^ma_i b_i$

两个特征正交等价于它们的协方差为0，我们假设去除了均值之后的矩阵为X，我们来写出它的协方差矩阵。

协方差矩阵

对于去除了均值的矩阵X而言，有一个性质是它的协方差矩阵 $X_{cov}=\frac{1}{m}X \cdot X^T$ 。我们可以来简单证明一下，假设矩阵当中只有两个特征a和b，那么我们将它按行写成矩阵：

$X=\left[ \begin{matrix}a_1, a_2, \cdots, a_m\\ b_1, b_2, \cdots, b_m\end{matrix} \right]$

最低0.47元/天解锁文章

TechFlow

关注

3
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
PCA算法 | 数据集特征数量太多怎么办？用这个算法对它降维打击！

本文始发于个人公众号：TechFlow，原创不易，求个关注今天是机器学习专题的第27文章，我们一起来聊聊数据处理领域的降维(dimensionality reduction)算法。我们都知道，图片格式当中有一种叫做svg，这种格式的图片无论我们将它放大多少倍，也不会失真更不会出现边缘模糊的情况。原因也很简单，因为这种图片是矢量图，一般的图片存储的是每一个像素点的颜色值，而在矢量图当中，我们存储的是矢量，也就是起点终点以及颜色。由于矢量图只记录起点终点，所以无论我们如何放大，图片都不会失真，而传统的图片
复制链接

扫一扫

专栏目录