pca降维的基本思想_百面机器学习 第四章 降维 PCA

降维:用低维度向量表示高纬度特征。

主成分分析PCA、线性判别分析LDA、等距映射、局部线性嵌入、拉普拉斯特征映射、局部保留投影。

1.PCA

PCA是一种线性、非监督、全局的降维算法。

推理:

f3db512534c0df0f7a945a4d487abc9e.png

549f3191a5c4032429057ea6b3c3e57d.png

(1)PCA最大方差理论

基本思想,将样本点投影到一个方差最大的主轴方向上。

投影后的方差就是协方差矩阵的特征值。

具体操作步骤:

第一步,对样本数据进行中心化;

第二步,求样本协方差矩阵;

第三步,将协方差矩阵对角化,即进行特征分解,求得特征值和特征向量;

第四步,去特征值的前d个。

至此,完成n维到d维的PCA降维。

(2)PCA最小平方误差理论

不仅可以从方差最大的角度考虑,还可以从距离平方最小的角度考虑PCA。

2.线性判别分析LDA

LDA是线性、有监督的降维方法。

PCA不考虑样本的标签,只把样本映射到方差最大的方向;LDA考虑样本的标签,即考虑组间距离足够大,也考虑组内方差足够小。

类间距离越大越好,类内方差越小越好。对上式求偏导便可求解。

3.LDA和PCA比较

将LDA推至多分类情况,类内方差依然不变,类间距离无法直接计算(因为超过2类了),因而引入全局散度矩阵,即所有样本中心点,到各类样本中心点的距离。并将全局散度-类内散度作为类间散度。

具体步骤:

第一步,计算每个类别的均值向量和总体均值向量;

第二步,计算类内散度、全局散度、并相减得到类间散度;

第三步,对上述最大化目标进行特征分解,并从大到小排列;

第四步,选取前d个。

至此,完成n维到d维的LDA降维。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值