特征降维~

豫儿啊~

于 2024-05-16 17:06:18 发布

阅读量487

点赞数 6

文章标签：机器学习 numpy 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/djylovehzt/article/details/138968348

版权

特征降维
特征降维简介
用于训练的数据集特征对模型的性能有着极其重要的作用。如果训练数据中包含一些不重要的特征，可能导致模型的泛化性能不佳。例如：

1. 某些特征的取值较为接近，其包含的信息较少
2. 我们希望特征独立存在，对预测产生影响，具有相关性的特征可能并不会给模型带来更多的信息，但是并不是说相关性完全无用。

降维*是指在某些限定条件下，降低特征个数，我们接下来介绍集中特征降维的方法：

低方差过滤法，相关系数法，PCA（主成分分析）降维法。
低方差过滤法
我们知道:

1. 特征方差小：某个特征大多样本的值比较相近
2. 特征方差大：某个特征很多样本的值都有差别

低方差过滤法指的是删除方差低于某些阈值的一些特征。
       在数据集中，删除方差低于 threshold 的特征将被删除，默认值是保留所有非零方差特征，即删除所有样本中具有相同值的特征。
   主成分分析（PCA）
       PCA 通过对数据维数进行压缩，尽可能降低原数据的维数（复杂度），损失少量信息，在此过程中可能会舍弃原有数据、创造新的变量。
   相关系数法
       相关系数的计算主要有: 皮尔逊相关系数、斯皮尔曼相关系数。特征之间的相关系数法可以反映变量之间相关关系密切程度。

皮尔逊相关系数的计算公式:

       斯皮尔曼相关系数计算公式:

关注

6
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
特征降维~

在数据集中，删除方差低于 threshold 的特征将被删除，默认值是保留所有非零方差特征，即删除所有样本中具有相同值的特征。PCA 通过对数据维数进行压缩，尽可能降低原数据的维数（复杂度），损失少量信息，在此过程中可能会舍弃原有数据、创造新的变量。如果训练数据中包含一些不重要的特征，可能导致模型的泛化性能不佳。2. 我们希望特征独立存在，对预测产生影响，具有相关性的特征可能并不会给模型带来更多的信息，但是并不是说相关性完全无用。低方差过滤法指的是删除方差低于某些阈值的一些特征。主成分分析（PCA）
复制链接

扫一扫

豫儿啊~ CSDN认证博客专家 CSDN认证企业博客

码龄106天

18: 原创

117万+: 周排名

5万+: 总排名

1万+: 访问

: 等级

512: 积分

505: 粉丝

306: 获赞

10: 评论

130: 收藏

私信

关注

热门文章

最新评论

机器学习------聚类
全栈小5: 通过文章可以看出，博主很有耐心，技术文章不仅是对技术的坚守，更是对知识的热忱和热爱，感谢您的优质分享和坚持更文。期待着博主更加深入的剖析，为大家带来更多的技术好文。【机器学习------聚类，博主这篇文章，值得一看】
支持向量机SVM
寸铁: 博主的文章让我对这个主题有了全新的认识，细节描写非常到位，让我感受到了博主的深厚功底。期待博主未来能够持续分享更多好文，同时也希望能够得到博主的指导，共同进步。非常感谢博主的分享和支持！
机器学习------聚类
一九11111: 大佬高质量文章，图文并茂，逻辑清晰，受益匪浅，期待大佬新作。
决策树(详细)
一九11111: 感谢大佬分享好文，学到了不少新知识，支持大佬，期待大佬持续输出优质文章！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
逻辑回归(详细)
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/618667323。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。