python中pca算法_降维算法中的PCA方法

本文介绍了主成分分析(PCA)和线性判别分析(LDA)这两种线性降维方法。PCA通过对数据的散度矩阵进行特征值分解,寻找最大方差的方向作为主成分,适合椭球状分布的样本集。LDA则侧重于找到最佳分类投影,最大化类间距离与类内距离的比值。PCA适用于非监督任务,而LDA在分类任务中有优势。文章还探讨了线性降维的局限性,并提供了PCA的计算步骤。
摘要由CSDN通过智能技术生成

1 主成分分析

(Principal Component Analysis,PCA)

2 线性判别分析

(Linear Discriminant Analysis, LDA)

研究背景

基本知识介绍

经典方法介绍

总结讨论

问题的提出

地理系统是多要素的复杂系统。在地理学研究中,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。

因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?

降维的动机

原始观察空间中的样本具有极大的信息冗余

样本的高维数引发分类器设计的“维数灾难”

数据可视化、特征提取、分类与聚类等任务需求

e327f62038517de4ebaf32956523b660.png

80b592241a436947c6885aeb14d9a428.png

在进行祝成分分析后后,竟然以97.4%的精度,用三个变量取代了原来的17个变量。

线性降维

通过特征的线性组合来降维

本质上是把数据投影到低维线性子空间

线性方法相对比较简单且容易计算

代表方法

主成分分析(PCA)

线性判别分析(LDA)

多维尺度变换(MDS)

主成分分析(PCA) [Jolliffe, 1986]

降维目的:寻找能够保持采样数据方差的最佳投影子空间

求解方法:对样本的散度矩阵进行特征值分解, 所求子空间为经过样本均值, 以最大特征值所对应的特征向量为方向的子空间

c3c66e06387271ff5172516589c0371b.png

主成分分析(PCA) [Jolliffe, 1986]

PCA对于椭球状分布的样本集有很好的效果, 学习所得的主方向就是椭球的主轴方向.

PCA 是一种非监督的算法, 能找到很好地代表所有样本的方向, 但这个方向对于分类未必是最有利的

6104866984925dc3bff23e670efaa22e.png

线性判别分析(LDA) [Fukunaga, 1991]

降维目的:寻找最能把两类样本分开的投影直线,使投影后两类样本的均值之差与投影样本的总类散度的比值最大

求解方法:经过推导把原问题转化为关于样本集总类内散度矩阵和总类间散度矩阵的广义特征值问题

d0f2ae5ec01307875661174abfc8ae6b.png

线性降维方法比较

主成分分析 (PCA) [Jolliffe, 1986]

线性判别分析 (LDA) [Fukunaga, 1991]

d54915b2108965dd9729a52d3e6228a2.png

线性降维方法的不足

b3d2294a7a6a2c307f9de2ccbbbc267d.png

原始数据无法表示为特征的简单线性组合

比如:PCA无法表达Helix曲线流形

一、主成分分析的基本原理

假定有n个地理样本,每个样本共有p个变量,构成一个n×p 阶的地理数据矩阵

4965ec65a384a97f18974fecdd247eb6.png

当p 较大时,在p 维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。

定义:记x1,x2,…,xP为原变量指标,z1,z2,…,zm(m≤p)为新变量指标

740323393336ba25cfe9d63a49a40c57.png

系数lij的确定原则:

① zi与zj(i≠j;i,j=1,2,…,m)相互无关;

②z1是x1,x2,…,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…,xP的所有线性组合中方差最大者;

……

zm是与z1,z2,……,zm-1都不相关的x1,x2,…xP, 的所有线性组合中方差最大者。

则新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第一,第二,…,第m主成分。

从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2 ,…, p)在诸主成分zi(i=1,2,…,m)上的荷载 lij( i=1,2,…,m; j=1,2 ,…,p)。

从数学上容易知道,从数学上可以证明,它们分别是的相关矩阵的m个较大的特征值所对应的特征向量。

二、计算步骤

1)构建p*n阶的变量矩阵

2)将p*n阶的变量矩阵X的每一行(代表一个属性字段)进行标准化

3)求出协方差矩阵C

4)求出协方差矩阵的特征值及对应的特征向量

5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k列组成矩阵P

6)Y=XP即为降维到k维后的数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值