机器学习-PCA与梯度上升法

1 什么是PCA

梯度下降法寻找一个目标函数的最优解(最小值、最大值),梯度寻找还应用在主成分分析(Principal Component Analysis)

主成分分析:

  • 一个非监督的机器学习算法
  • 主要用于数据的降维
  • 通过降维,可以发现更便于人类理解的特征
  • 其他应用:可视化;去噪

通过数据的降维来理解PCA的原理,首先假设一个数据集有两个维度的特征:

在这里插入图片描述
如果要降维的话,首先显而易见的是选择一个特征,比如将所有数据点降到x轴上,只选择特征一作为数据样本的特征。
在这里插入图片描述
那么从上图可以看到,两种降维方案,映射到x轴上的降维方案更好,因为点和点的距离是更大的,点和点拥有更高的区分度,更好的保持了原来的点和点之间的分布。同理,我们可以得到一个更好的方案,找到一根斜线,可以将所有的点映射到这跟直线上,降到一维,即映射到一根直线(轴)上面(一个维度),使用这种方式现在的点更加趋近于原来的点的分布情况,也就是,点和点的距离比无论是映射到x轴还是y轴都更大,之间的区分度更加的明显。
在这里插入图片描述
如何找到这样一根轴,可以使样本间间距最大的轴?这样样本间的区别才更明显。
首先如何定义样本间间距?
在统计学中,使用方差(Variance) 这个指标来描述样本整体分布的疏密 V a r ( x ) = 1 m ∑ i = 1 m ( x i − x ˉ ) 2 Var(x)=\frac{1}{m}\sum_{i=1}^{m}(x_i-\bar{x})^2 Var(x)=m1i=1m(xixˉ)2
那么问题转化为,找到一个轴,使得样本空间的所有点映射到这个轴后,方差最大。

第一步:将样例的均值归为0(demean)
在这里插入图片描述
这样做的原因是样本的分布没有改变,把坐标轴进行了移动,使得样本在每个维度上均值都为0。几何表示为新的原点在值的中间。证明:
在这里插入图片描述
这一步的意义在于,方差的式子化解为: V a r ( x ) = 1 m ∑ i = 1 m x i 2 Var(x)=\frac{1}{m}\sum_{i=1}^{m}x_i^2 Var(x)=m1i=1mxi2,此时的 x i x_i xi表示映射到这个轴之后的新的样本。
第二步:求一个轴的方向 w=(w1, w2) ,使得所有的样本,映射到w以后,有:在这里插入图片描述
由于进行了demean处理, X ˉ p r o j e c t = 0 \bar{X}_{project}=0 Xˉproject=0,所以最后是要求得下式最大值(映射到新轴的点的模):
V a r ( X p r o j e c t ) = 1 m ∑ i = 1 m ∥ X p r o j e c t i ∥ 2 Var(X_{project})=\frac{1}{m}\sum_{i=1}^{m}\left \| X_{project}^i \right \|^2 Var(Xproject

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值