机器学习之主成分分析

最新推荐文章于 2023-09-08 15:26:48 发布

置顶

双皮奶呀

最新推荐文章于 2023-09-08 15:26:48 发布

阅读量1k

点赞数 1

分类专栏：机器学习《机器学习实战》学习笔记文章标签：机器学习降维主成分分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41638083/article/details/101074931

版权

目录

一.绪言
二.什么是主成分分析
三.数学原理
四.算法步骤
五.代码实现
- 一个例子
六.算法评价
参考资料

一.绪言

前段时间开始入门机器学习，《机器学习实战》（Peter Harrington 著）差不多过了一遍，第一遍主要关注算法的实现和应用。现在把注意力转移到算法的原理，这一次争取把算法总结得尽量全面，便于以后查阅。

这是本系列的第一篇文章——主成分分析。

二.什么是主成分分析

主成分分析是姜维，哦不，降维的一种。

降维就是将维度降低。在机器学习中，降维常常用来做数据的预处理。为什么要对数据进行降维了？那来从数据本身说起。

大数据时代，数据冗余，维度高。例如个人用户信息，存储了身份证，同时也存储了生日，就造成了冗余。
数据维度有相关性。例如，人脸头像具有对称性，去掉一般的像素点也是没有太大问题的。
数据有噪声。噪声对学习会产生干扰，去掉噪声可以提高算法的精度。

那如何进行降维了？难道要随机去掉一些维度吗？答案是否定的。直接去掉维度会导致数据信息的大量确实。主成分分析（PCA）技术可以尽量保证数据信息少量减小的情况下，进行维度的缩减。

主成分分析的原理是将数据从原来的坐标系转化到新的坐标系，新坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方差最大的方向，第二个新坐标轴的选择和第一个坐标轴正交且具有最大方差的方向。重复选择新坐标轴之后，最终大部分方差都包含在最前面的几个新坐标轴中。因此，可以忽略余下的坐标轴，达到降维的目的。

举个栗子：

在上图中，在第一次移动坐标轴时，先找到了数据的最大方差方向，即此时的 $u$ 方向，接着第二次移动坐标轴，找到的次大方差方向且与 $u$ 轴正交的 $v$ 方向。

这里，第一个主成分就是从数据差异性最大的（即方差最大）的方向，即 $u$ 。第二个主成分则来自于数据差异性次大的方向，并且与第一个主成分方向正交，即 $v$ 。

我们可以只用 $u$ 方向来研究原来的数据，就达到了降维的目的，而且最大得保留了原数据的差异性。

三.数学原理

总体主成分

设 $x=(x_{1},x_{2},\dots,x_{m})^{T}$ 是m维随机变量，其均值向量是 $\mu$ 。

$\mu=E(x)=x=(\mu_{1},\mu_{2},\dots,\mu_{m})^{T}$

协方差矩阵是 $\Sigma$

$\Sigma=cov(x,x)=E[(x-\mu)(x-\mu)^{T}]$

考虑由m维随机变量 $x$ 到m维随机变量 $y=(y_{1},y_{2},\dots,y_{m})^{T}$ 的线性变换
$y_{i}=\alpha_{i}^{T}x=\alpha_{1i}x_{1}+\alpha_{2i}x_{2}+\dots+\alpha_{mi}x_{m}$
其中 $\alpha_{i}^{T}=(\alpha_{1i},\alpha_{2i},\dots,\alpha_{mi})$

于是y有下列性质：

$E(y_{i})=\alpha_{i}^{T}\mu$
$var(y_{i})=\alpha_{i}^{T}\Sigma\alpha_{i}$

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
机器学习之主成分分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。本文链接：https://mp.csdn.net/mdeditor/101074931目录绪言什么是主成分分析数学原理总体主成分参考资料绪言前段时间开始入门机器学习，《机器学习实战》（Peter Harrington 著）差不多过了一遍，第一遍主要关注算法的实现和应用。现在把注意力转移到...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。