2024-3-14-PCA（主成分分析）

最新推荐文章于 2024-10-02 23:40:03 发布

urologist

最新推荐文章于 2024-10-02 23:40:03 发布

阅读量237

点赞数 2

分类专栏：主成分分析文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/urologist/article/details/136721900

版权

主成分分析专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文介绍了主成分分析(PCA)作为数据降维技术的方法，通过挖掘新坐标轴来保留关键特征并减少噪声。它通过选择方差最大的方向构建坐标系，实现数据特征的压缩，常用于观察组间差异和聚类分析。后续将提供详细代码和图解示例。

摘要由CSDN通过智能技术生成

主成分分析是数据降维的一种。降维是将高维度的数据保留下最重要的一些特征，去除噪声和不重要的特征，从而实现提升数据处理速度的目的。

那么如何去将海量数据进行降维的同时又能最大程度的保留其原有的特征呢？

PCA的首要工作就是运用其方法来挖掘新的坐标轴（第一个新坐标轴选择是原始数据中方差最大的方向，第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的，第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推，可以得到n个这样的坐标轴。）

最终大部分方差都包含在前面k个坐标轴中，后面的坐标轴所含的方差几乎为0。此时就可以忽略余下的坐标轴，只保留前面k个含有绝大部分方差的坐标轴。事实上，这相当于只保留包含绝大部分方差的维度特征，而忽略包含方差几乎为0的特征维度，实现对数据特征的降维处理。

Dim1和Dim2就是自定义的新坐标轴，括号里的是说有多少符合~

每个圈代表一个聚类，每个点代表一个样本，其在坐标轴上距离越远说明样本差异越大。

在组间样本量一样大的时候，圈圈越小说明组内重复性越好，而中心点离得越远，组间差异越大。

其中方块的大点代表的是每个聚类的中心点。

常用于简单查看组间是否存在差别。

具体代码和细节图解待后续补充

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

urologist CSDN认证博客专家 CSDN认证企业博客

码龄2年

2: 原创

157万+: 周排名

25万+: 总排名

1297: 访问

: 等级

41: 积分

11: 粉丝

21: 获赞

1: 评论

16: 收藏

私信

关注

热门文章

分类专栏

主成分分析 1篇

最新评论

GEO数据挖掘-DAY1
CSDN-Ada助手: 这篇博客内容丰富，对于GEO数据挖掘的方法有很好的介绍和实践操作。希望作者能够继续分享更多关于数据挖掘的经验和技巧，让读者受益良多。另外，在数据挖掘领域，除了降维算法和主成分分析外，还可以了解一些常用的聚类算法，如K-means和DBSCAN，以及数据可视化技巧，如t-SNE和PCA等，这些都可以帮助更好地理解和分析数据。期待作者在未来的博客中分享更多深入的数据挖掘知识，不断提升自己的技能水平。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
2024-3-14-PCA（主成分分析）
CSDN-Ada助手: 恭喜您开始了博客创作的第一步！主成分分析是一个非常有趣且实用的话题，希望您能够深入挖掘，为读者带来更多有价值的内容。建议您可以在接下来的博客中，结合实际案例或是提供更多的数据分析技巧，让读者能够更好地理解和应用主成分分析。期待您的更多精彩内容！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

GEO数据挖掘-DAY1

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。