深度学习不深度-PCA与AutoEncoder

最新推荐文章于 2024-09-16 05:07:52 发布

Mr. 阿紫

最新推荐文章于 2024-09-16 05:07:52 发布

阅读量3.6k

点赞数 1

本文链接：https://blog.csdn.net/jainszhang/article/details/82728274

版权

1.AutoEncoder

AutoEncoder称之为自编码器,自编码器过程如下：

我们的目标是使得 $x和\tilde{x}$ 越接近越好。x经过Encoder后得到y（code）可以看作是一个降维的过程，因此与PCA类似。AutoEncoder原理十分简单，可以利用y（code）做分类，在y（code）较少的情况下，则需要考虑加入噪音来平衡。

2. PCA涉及数学知识

PCA是一种数据分析方法，将原始数据变换成一组各维度线性无关的表示，可以用来提取主要特征，进而实现降维。众所周知，在机器学习算法中，算法的复杂度与数据的维度是紧密相关的，因此提取数据的主要特征来降低算法的复杂度是一个不错的选择。

相关性：两个变量的关联程度。举个例子：电商某一商品的销量与访问量相关，一般情况下访问量高，销量也高，如果此时删除访问量，根据销量也可以推出访问量的大小（反之亦然），因此访问量这个属性对数据分析影响不大。再举个例子：新生入学，男女选项有两个，设置为0和1,即非男即女（阴阳人不算），如果在男女结果两列中删除一列，可以根据一列推出另一列的值。上面两个例子都可以看出本来两个属性（字段），删除其中一个，依然可以根据另一个推出，这就是直观理解降维过程了。

内积几何解释：向量A和向量B，A $\cdot$ B=|A|*cos( $\alpha$ )*|B|，也就是A在B上的投影长度 $\times$ B的模。

基：在线性代数中，基（也称为基底）是描述、刻画向量空间的基本工具。向量空间的基是它的一个特殊的子集，基的元素称为基向量。向量空间中任意一个元素，都可以唯一地表示成基向量的线性组合。如果基中元素个数有限，就称向量空间为有限维向量空间，将元素的个数称作向量空间的维数-----来自百度百科。说来说去，基就类似于一个单位，某一个向量可以表示为基向量的线性组合，基向量的维度决定了变换后向量的维度，因此在降维中可以选择维度较小的基。

问题在于：在PCA降维过程中如何合理的选择基呢？（先留着，最后回答）

具体问题：在尽量保持原有二维数据的信息的基础上，如何用一维数据来表示二维数据呢？

采用的方法是：选取一条直线，把所有二维上的点投影到该直线上，计算出新的坐标，最合理的直线选择就是希望投影后的投影值尽可能的分散，这样对原有数据影响最小。

方差：在数学上有一个术语可以用来衡量数据的分散程度，那就是方差。

如果把数据a中所有字段都去均值，则方差就如下：

此时降维问题就可以表示为：寻找一个低维度的基，使得所有数据在新基上表示后，新的坐标（值）方差最大。

协方差：对于高维（3维以上），我们希望找到一个方向，使得向量投影后的方差最大，但如果低维有2个以上分量该如何做呢？（如何投影？）此时就不能像在2维降低到一维一样投影了。在利用新的基变换后的字段尽可能表示更多的原始信息，同时希望变换后的字段（分量）之间无相关性，否则就重复表示了（见相关性解释）。在数学上，协方差可以表示相关性，协方差为0的两个随机变量不相关，但是不一定独立。

降维优化的目标直观表达：将一组N维向量降低至K维（K>0,K<N)，目标是选择K个单位（模为1)的正交基，使得原始数据变换到这组基上后，各字段两两间协方差为0，而字段的方差则尽可能大（在正交的约束下，取最大的K个方差）。

矩阵乘法：在链接中第1,2节有介绍。矩阵乘法可以看作是（行/列）向量的线性组合。

Jainszhang：MIT线性代数zhuanlan.zhihu.com

协方差矩阵：上面我们导出了优化目标，但没有说怎么做。所以我们要继续在数学上研究计算方案。我们看到，最终要达到的目的与字段内方差及字段间协方差有密切关系。因此我们希望能将两者统一表示，仔细观察发现，两者均可以表示为内积的形式，而内积又与矩阵相乘密切相关。于是我们来了灵感：假设我们只有a和b两个字段，那么我们将它们按行组成矩阵X：