数据建模:《学习笔记与总结》之常见的数据降维方法(1)PCA

一、降维的主要目的

  • 数据降维的应用:①降低数据的存储量;②加快机器学习的速度;③数据可视化
  • 数据降维的本质: 方差
  • 方差的公式   

  • 方差的意义:方差越小,代表这组数据越稳定,方差越大,代表这组数据越不稳定。

下面内容主要 介绍目前降维的主要方法

二、PCA(主成分分析)principal component analysis

  1. 原理:对于一个未知的系统,我们假设它有n个参数。我们想要求出那些参数最重要,而把不重要的参数给抹掉,从而降低参数向量的维数。PCA的问题其实是一个基的变换,使得变换后的数据有着最大的方差。
  2. 算法过程:
1)对于一个训练集,20个sample(i=1,2,3,…,20),特征Xi是100维Xi1,Xi2,Xi3,…Xij,…,Xi100,
那么它可以建立一个20*100的样本矩阵M。 

2)紧接着我们开始求这个样本的协方差矩阵,得到一个20*20的协方差矩阵,计算过程如下: 
  •先求解出Xi的平均Xav=(∑xi)/20; 
  •对每一个Xi,计算Xi-Xav,即Mi(第 i 行)变为 Mi-Xav,记为Mn; 
  •则容易得到协方差矩阵Z为Mn*Mn’( ’ 表示转置 ) 。 

3)然后求出这个协方差矩阵Z20x20的特征值和特征向量,一般情况下应该有20个特征值和特征向量,
现在根据特征值的大小,取出较大的特征值以及其所对应的特征向量,
假设提取的特征值为较大的5个特征值,那么这5个特征向量就会构成一个20*5的矩阵V,
这个矩阵就是我们要求的特征矩阵。

4)用Mn’去乘以V,得到一个base矩阵(*),大小为100x5。

5)任取一个样本1x100,乘上这个100*5的特征矩阵,就得到了一个1*5的新的样本,
显然每个sample的维数下降了,然后再用这个1x5向量去比较相似性。

其中2)的操作步骤为,在20*100的矩阵中,按100列求出各列的均值,然后计算每列各个元素和各列均值的差值形成一个20*100的矩阵,求的是不同样本在同一列的差异。然后把原始数据 转置形成一个100*20的矩阵,然后求20列的均值,形成一个100*20的矩阵,求的是同一样本在不同列的差异。然后把差异矩阵相乘,形成一个20*20 的协方差矩阵。

    补充特征值 特征向量  方阵等概念和基础知识。

     方阵:行和列数相等的矩阵。

     单位矩阵:E 从左上角到右下角的对角线(称为主对角线)上的元素均为1,除此以外全都为0的方阵。

         1阶到N阶的单位矩阵。

      

特征值和特征向量 以及求解方法

  • 3
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值