数据建模：《学习笔记与总结》之常见的数据降维方法（1）PCA

最新推荐文章于 2023-01-26 21:45:06 发布

孤云独去闲.com

最新推荐文章于 2023-01-26 21:45:06 发布

阅读量3.2k

点赞数 3

分类专栏：机器学习高等数学线性代数文章标签：数据建模常用的降维方法

本文链接：https://blog.csdn.net/weixin_41858342/article/details/89413680

版权

本文介绍了数据降维的主要目的，包括降低存储量、加快学习速度和便于数据可视化。重点讲解了PCA（主成分分析）的基本原理，PCA通过基变换寻找最大方差的方向，实现数据降维。文中详细阐述了PCA的算法过程，并列举了PCA的主要参数，如n_components、copy、whiten等，讨论了参数的含义和用法。在实践中，还提醒了PCA参数设置的注意事项，如n_components设为'mle'时需配合'svd_solver'设为'full'。

摘要由CSDN通过智能技术生成

一、降维的主要目的

数据降维的应用：①降低数据的存储量；②加快机器学习的速度；③数据可视化
数据降维的本质：方差
方差的公式

方差的意义：方差越小，代表这组数据越稳定，方差越大，代表这组数据越不稳定。

下面内容主要介绍目前降维的主要方法

二、PCA（主成分分析）principal component analysis

原理：对于一个未知的系统，我们假设它有n个参数。我们想要求出那些参数最重要，而把不重要的参数给抹掉，从而降低参数向量的维数。PCA的问题其实是一个基的变换，使得变换后的数据有着最大的方差。
算法过程：

1）对于一个训练集，20个sample(i=1,2,3,…,20)，特征Xi是100维Xi1,Xi2,Xi3,…Xij,…,Xi100，
那么它可以建立一个20*100的样本矩阵M。 

2）紧接着我们开始求这个样本的协方差矩阵，得到一个20*20的协方差矩阵，计算过程如下： 
  •先求解出Xi的平均Xav=(∑xi)/20; 
  •对每一个Xi,计算Xi-Xav,即Mi(第 i 行)变为 Mi-Xav,记为Mn; 
  •则容易得到协方差矩阵Z为Mn*Mn’( ’ 表示转置 ) 。 

3）然后求出这个协方差矩阵Z20x20的特征值和特征向量，一般情况下应该有20个特征值和特征向量，
现在根据特征值的大小，取出较大的特征值以及其所对应的特征向量，
假设提取的特征值为较大的5个特征值，那么这5个特征向量就会构成一个20*5的矩阵V，
这个矩阵就是我们要求的特征矩阵。

4）用Mn’去乘以V，得到一个base矩阵（*），大小为100x5。

5）任取一个样本1x100,乘上这个100*5的特征矩阵，就得到了一个1*5的新的样本，
显然每个sample的维数下降了，然后再用这个1x5向量去比较相似性。

其中2）的操作步骤为，在20*100的矩阵中，按100列求出各列的均值，然后计算每列各个元素和各列均值的差值形成一个20*100的矩阵，求的是不同样本在同一列的差异。然后把原始数据转置形成一个100*20的矩阵，然后求20列的均值，形成一个100*20的矩阵，求的是同一样本在不同列的差异。然后把差异矩阵相乘，形成一个20*20 的协方差矩阵。

补充特征值特征向量方阵等概念和基础知识。

方阵：行和列数相等的矩阵。

单位矩阵：E 从左上角到右下角的对角线（称为主对角线）上的元素均为1,除此以外全都为0的方阵。

1阶到N阶的单位矩阵。