数据降维PCA

数据将为的方法很多,可以从两个角度四个象限来分类:

线性非线性
有指导LDA/MFASNE/t-SNE
无指导PCA/ICA聚类

下面由易到难介绍这几种方法:

PCA(principal component analysis, 主成分分析)

理论推导

有数据 x1,x2,...,xn x 1 , x 2 , . . . , x n 均值为0,我们希望将他们降低维度为 ATx1,ATx2,...,ATxn A T x 1 , A T x 2 , . . . , A T x n
x x A的方向上方差最大,其他方差较小的方向认为是由噪声引起的。
转化为数学问题就是希望 maxA tr((ATxxTA)),s.t.,ATA=I m a x A   t r ( ∑ ( A T x ⋅ x T A ) ) , s . t . , A T A = I
这是一个有约束的最优化问题,由拉格朗日乘子法可知,等价于求解

maxA,λ(tr(1N(ATxxTA)λ(ATAI)))=maxA,λF(A,λ) m a x A , λ ( t r ( 1 N ∑ ( A T x ⋅ x T A ) − λ ( A T A − I ) ) ) = m a x A , λ F ( A , λ )

可得:

FA=1N(xxT)AλA=0 ∂ F ∂ A = 1 N ∑ ( x ⋅ x T ) A − λ A = 0

Fλ=ATAI=0 ∂ F ∂ λ = A T A − I = 0

显然可以得到 A A 的列向量是1N(xxT)的特征值
P.S.略有不严谨之处,因为 λ λ 是个对角矩阵,详细推到的思路也类似,可以简单这么理解。

直观解释

这里写图片描述

认为方差较大的方向是数据区别的主要方向,其他方向的波动是由于噪声引起的。

这里写图片描述

一般前数据的绝大部分方差都包含在前面的几个主成分中,舍弃后面的主成分并不会损失太多的信息。如果只保留前面几个最重要的主成分,那么在保留了绝大部分信息的基础上,可以将数据集特征压缩到一个非常低的程度,显然大大提高了计算效率,降低了过拟合的可能性。

优缺点

优点很明显,简单快速,无监督;
缺点也很明显,由于是线性的,对于数据分布很复杂的情况下,可能会损失很多信息,而且如果对于有标签的情况下,没有利用标签的指导。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值