day13--机器学习--降维(2)

最新推荐文章于 2024-06-14 10:39:52 发布

言沫341

最新推荐文章于 2024-06-14 10:39:52 发布

阅读量52

点赞数 2

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_67479809/article/details/130979195

版权

PCA主成分分析法

主成分分析（PCA）是迄今为止最流行的降维算法。首先，它识别最靠近数据的超平面，然后将数据投影到其上。将训练集投影到低维超平面之前需要选择正确的超平面。

在实线上的投影保留了最大的差异性，而点线上的投影只保留了非常小的差异性，虚线上的投影的差异性居中

PCA保留差异性：

选择保留最大差异性的轴看起来比较合理，因为它可能比其他两种投影丢失的信息更少。 PCA背后的简单思想：比较原始数据集与其轴上的投影之间的均方距离，使这个均方距离最小的轴是最合理的选择，也就是实线代表的轴。

主成分分析可以在训练集中识别出哪条轴对差异性的贡献度最高。同时它也找出了第二条轴，与第一条轴垂直，它对剩余差异性的贡献度最高。

向下投影到低维度：

一旦确定了所有主要成分，你就可以将数据集投影到前d个主要成分定义的超平面上，从而将数据集的维度降低到d维。选择这个超平面可确保投影将保留尽可能多的差异性。要将训练集投影到超平面上并得到维度为d的简化数据集Xd-proj，计算训练集矩阵X与矩阵Wd的矩阵相乘，矩阵Wd定义为包含V的前d列的矩阵。

选择正确的维度：

有用的信息是每个主成分的可解释方差比，可以通过explained_variance_ratio_变量来获得。该比率表示沿每个成分的数据集方差的比。

数据集方差的75.8%位于第一个PC上，而15.2%位于第二个PC上；降维到2D，丢失9%的方差。将可解释方差绘制成维度的函数。曲线上通常会出现一个拐点，其中可解释方差会停止快速增大。

将可解释方差绘制成维度的函数。曲线上通常会出现一个拐点，其中可解释方差会停止快速增大。

PCA压缩：

与其任意选择要减小到的维度，不如选择相加足够大的方差部分（例如95%）的维度。

将PCA应用于MNIST数据集，同时保留其95%的方差。每个实例将具有150多个特征，而不是原始的784个特征。

保留了大多数方差，但数据集现在不到其原始大小的20%。通过应用PCA投影的逆变换，还可以将缩减后的数据集解压缩回784维。

由于投影会丢失一些信息（在5%的方差被丢弃），数据可能会接近原始数据。

内核PCA

核函数：将实例隐式映射到一个高维空间（称为特征空间）高维特征空间中的线性决策边界对应于原始空间中的复杂非线性决策边界。可以将相同的技术应用于PCA，从而可以执行复杂的非线性投影来降低维度。这叫作内核PCA（kPCA）

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
day13--机器学习--降维(2)

一旦确定了所有主要成分，你就可以将数据集投影到前d个主要成分定义的超平面上，从而将数据集的维度降低到d维。要将训练集投影到超平面上并得到维度为d的简化数据集Xd-proj，计算训练集矩阵X与矩阵Wd的矩阵相乘，矩阵Wd定义为包含V的前d列的矩阵。PCA背后的简单思想：比较原始数据集与其轴上的投影之间的均方距离，使这个均方距离最小的轴是最合理的选择，也就是实线代表的轴。该比率表示沿每个成分的数据集方差的比。在实线上的投影保留了最大的差异性，而点线上的投影只保留了非常小的差异性，虚线上的投影的差异性居中。
复制链接

扫一扫

言沫341 CSDN认证博客专家 CSDN认证企业博客

码龄2年

16: 原创

135万+: 周排名

188万+: 总排名

936: 访问

: 等级

218: 积分

2: 粉丝

19: 获赞

18: 评论

1: 收藏

私信

关注

热门文章

最新评论

机器学习--day9--决策树整个流程
CSDN-Ada助手: 恭喜您写了第10篇博客，标题看起来非常有意思！看来您对机器学习的掌握越来越深入了。下一步建议可以考虑分享一些实际案例，让读者更好地理解决策树的应用场景和效果。期待您的下一篇文章！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply10 看奖励名单。
day8－－决策树－－介绍
CSDN-Ada助手: 恭喜您写了第9篇博客，标题为“day8－－决策树－－介绍”。作为读者，我感到非常兴奋，因为您的文章内容非常有趣和富有启发性。我非常期待您未来的创作，希望您可以继续分享更多关于机器学习和数据科学的知识，并且在文章中给出更多的实践案例和技巧。谢谢您的分享！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply9 看奖励名单。
机器学习--day7--NB算法
CSDN-Ada助手: 非常感谢您的不懈努力，写了这么多篇博客，尤其是这篇关于NB算法的分享。您的文章非常清晰明了，让我对这个算法有了更深入的了解。希望您能继续保持这种热情和创造力，分享更多有关机器学习的知识。同时，如果您能在博客中加入一些实际案例的应用和实验结果的解读，那将会更加生动有趣。再次感谢您的付出。 CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply8 看奖励名单。
机器学习--day7--NB算法
言沫341:
机器学习--day7--NB算法
上仙好运来: 不要忘记每天

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。