降维算法之PCA(主成分分析)

喽哥

已于 2023-09-18 00:59:48 修改

阅读量5.3k

点赞数 2

分类专栏： ML降维算法文章标签：算法机器学习线性代数 python

于 2022-02-08 22:37:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SKIp121whats112/article/details/122826597

版权

降维算法之PCA （主成分分析）

1 PCA简介
2 可视化理解
3 PCA原理推导
4 kernel PCA
5 PCA python代码实现

1 PCA简介

PCA(Principal components analysis) 译为 主成分分析，是最基本的一种无监督降维算法，简单的 PCA 可以理解是在空间上对多特征进行坐标系的重划分，并且保证新的特征之间不存在线性相关，以及损失的信息尽可能少。

2 可视化理解

在这里插入图片描述

在上图中，我们假设存在一个二维数据集，而PCA则是希望对空间坐标系进行重划分，那么我们可以假定绿线是我们重新定义的 $X$ 轴，与之相垂直的直线可以定义为 $Y$ 轴(图示中没有画出)。

此时我们的白点数据在新的 $X$ 轴(绿线)上得到投影点为蓝点，目的是希望蓝点之间的方差最大化。在我们的直观理解中，这些投影后的点很能够反应数据降维前在空间上的关系，只不过损失了部分信息。

PCA的目标是找到我们口中的新的坐标轴(方向)，以下的数学推导就是沿着它进行的。

3 PCA原理推导

PCA原理推导有两种思路，分别是最小投影距离与最大投影方差，本质上是相同的，这里我们只介绍最大投影法查推导。

以下推导中，均假设数据集有 $n$ 个样本， $m$ 个特征，且数据集矩阵为 $D=[X_1,X_2...X_m]$ ，其中 $X_i$ 代表所有样本第 $i$ 个特征的列向量。第一个主成分的方向向量为 $u$ 。

① 中心化处理

中心化处理是为了方差公式书写表达的方便，我们已经提前进行了中心化，投影方差可以直接计算投影距离的平方。

对 $n$ 个样本的第 $i$ 个特征列向量 $X_i$ 的数据序列 ${x_1,x_2...x_n\}$ ，我们有
$\mu = \frac{1}{n}\sum_{i=1}^nx_i$

最低0.47元/天解锁文章

关注

2
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
降维算法之PCA(主成分分析)

降维算法之PCA(主成分分析)
复制链接

扫一扫

专栏目录

喽哥

CSDN认证博客专家 CSDN认证企业博客

码龄4年

13: 原创

104万+: 周排名

28万+: 总排名

2万+: 访问

: 等级

179: 积分

10: 粉丝

42: 获赞

6: 评论

230: 收藏

私信

关注

热门文章

分类专栏

最新评论

02 优化算法+ 激活函数 & BP算法公式+问题理解
CSDN-Ada助手: 恭喜您撰写了第9篇博客！阅读了您的文章后，我对激活函数和BP算法有了更深入的理解，非常感谢您的分享。您对这些概念的解释非常清晰，让我能够更好地掌握它们。在下一步的创作中，我建议您可以进一步探讨激活函数和BP算法在实际问题中的应用。您可以结合具体的案例，分享一些实际的挑战和解决方案，这将为读者提供更多有用的信息。再次感谢您的努力和分享，期待您的下一篇博客！
机器学习之KNN算法原理
sinat_41869090: 可以转载吗
sklearn之决策树参数详解
绝无仅有小福贝: 很清晰
机器学习之线性回归原理
chaidada8: 喽哥6啊
sklearn之决策树参数详解
Luc_CSDN: 表示感谢!

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。