python中pca算法_降维算法中的PCA方法

最新推荐文章于 2024-08-23 17:24:51 发布

酒量小的想睡觉

最新推荐文章于 2024-08-23 17:24:51 发布

阅读量317

点赞数

文章标签： python中pca算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_28917137/article/details/113500935

版权

本文介绍了主成分分析(PCA)和线性判别分析(LDA)这两种线性降维方法。PCA通过对数据的散度矩阵进行特征值分解，寻找最大方差的方向作为主成分，适合椭球状分布的样本集。LDA则侧重于找到最佳分类投影，最大化类间距离与类内距离的比值。PCA适用于非监督任务，而LDA在分类任务中有优势。文章还探讨了线性降维的局限性，并提供了PCA的计算步骤。

摘要由CSDN通过智能技术生成

1 主成分分析

(Principal Component Analysis，PCA)

2 线性判别分析

(Linear Discriminant Analysis, LDA)

研究背景

基本知识介绍

经典方法介绍

总结讨论

问题的提出

地理系统是多要素的复杂系统。在地理学研究中，多变量问题是经常会遇到的。变量太多，无疑会增加分析问题的难度与复杂性，而且在许多实际问题中，多个变量之间是具有一定的相关关系的。

因此，人们会很自然地想到，能否在相关分析的基础上，用较少的新变量代替原来较多的旧变量，而且使这些较少的新变量尽可能多地保留原来变量所反映的信息？

降维的动机

原始观察空间中的样本具有极大的信息冗余

样本的高维数引发分类器设计的“维数灾难”

数据可视化、特征提取、分类与聚类等任务需求

在进行祝成分分析后后，竟然以97.4%的精度，用三个变量取代了原来的17个变量。

线性降维

通过特征的线性组合来降维

本质上是把数据投影到低维线性子空间

线性方法相对比较简单且容易计算

代表方法

主成分分析(PCA)

线性判别分析(LDA)

多维尺度变换(MDS)

主成分分析(PCA) [Jolliffe, 1986]

降维目的：寻找能够保持采样数据方差的最佳投影子空间

求解方法：对样本的散度矩阵进行特征值分解, 所求子空间为经过样本均值, 以最大特征值所对应的特征向量为方向的子空间

主成分分析(PCA) [Jolliffe, 1986]

PCA对于椭球状分布的样本集有很好的效果, 学习所得的主方向就是椭球的主轴方向.

PCA 是一种非监督的算法, 能找到很好地代表所有样本的方向, 但这个方向对于分类未必是最有利的

线性判别分析(LDA) [Fukunaga, 1991]

降维目的：寻找最能把两类样本分开的投影直线，使投影后两类样本的均值之差与投影样本的总类散度的比值最大

求解方法：经过推导把原问题转化为关于样本集总类内散度矩阵和总类间散度矩阵的广义特征值问题

线性降维方法比较

主成分分析 (PCA) [Jolliffe, 1986]

线性判别分析 (LDA) [Fukunaga, 1991]

线性降维方法的不足

原始数据无法表示为特征的简单线性组合

比如：PCA无法表达Helix曲线流形

一、主成分分析的基本原理

假定有n个地理样本，每个样本共有p个变量，构成一个n×p 阶的地理数据矩阵

当p 较大时，在p 维空间中考察问题比较麻烦。为了克服这一困难，就需要进行降维处理，即用较少的几个综合指标代替原来较多的变量指标，而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息，同时它们之间又是彼此独立的。

定义：记x1，x2，…，xP为原变量指标，z1，z2，…，zm(m≤p)为新变量指标

系数lij的确定原则：

① zi与zj(i≠j；i，j=1，2，…，m)相互无关；

②z1是x1，x2，…，xP的一切线性组合中方差最大者，z2是与z1不相关的x1，x2，…，xP的所有线性组合中方差最大者；

……

zm是与z1，z2，……，zm－1都不相关的x1，x2，…xP，的所有线性组合中方差最大者。

则新变量指标z1，z2，…，zm分别称为原变量指标x1，x2，…，xP的第一，第二，…，第m主成分。

从以上的分析可以看出，主成分分析的实质就是确定原来变量xj(j=1，2 ，…， p)在诸主成分zi(i=1，2，…，m)上的荷载 lij( i=1，2，…，m； j=1，2 ，…，p)。

从数学上容易知道，从数学上可以证明，它们分别是的相关矩阵的m个较大的特征值所对应的特征向量。

二、计算步骤

1)构建p*n阶的变量矩阵

2)将p*n阶的变量矩阵X的每一行(代表一个属性字段)进行标准化

3)求出协方差矩阵C

4)求出协方差矩阵的特征值及对应的特征向量

5)将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k列组成矩阵P

6)Y=XP即为降维到k维后的数据

酒量小的想睡觉

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。