机器学习之特征选择和特征降维

最新推荐文章于 2024-03-27 11:46:44 发布

First Snowflakes

最新推荐文章于 2024-03-27 11:46:44 发布

阅读量1.3k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35865125/article/details/88082508

版权

机器学习专栏收录该内容

23 篇文章 5 订阅

订阅专栏

特征选择：

对于一个学习任务来说，给定属性(特征)集，有的属性可能很关键，很有用，另一些属性则可能没有什么用.

对当前任务有用的属性称为“相关特征(relevant feature)”，没有用的属性称为“无关特征(irrelevant feature)”。从给定的特征集合中选择出相关特征子集的过程，称为“特征选择”。特征选择是一个数据预处理的过程。

特征选择的必要性：1）现实任务中常会遇到维数灾难问题，即属性过多。2）去除不相关特征往往会降低学习任务的难度。

特征选择过程必须确保不丢失重要特征。特征选择中所谓的无关特征是指与当前学习任务无关的特征；有一类特征称为冗余特征，它们所包含的信息能从其他特征中推演出来，冗余特征在很多时候不起作用，去除它们会减轻学习过程的负担，但有时冗余特征会降低学习任务的难度，例如，如果学习目标是立方体的体积，则底面积这个冗余特征的存在将使得体积的估算更加容易；更确切地说，如果某个冗余特征恰好对应了完成学习任务所需的中间概念，则该冗余特征是有益的。

常见的特征选择方法大致可以分为三类：

1 过滤式

该方法先对数据集进行特征选择，然后再训练学习器，特征选择过程与后续学习器无关。例如Relief方法。

2 包裹式选择

包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价准则。

3 嵌入式选择与L1正则化

再前两种方法中，特征选择过程与学习器训练过程有明显分别；嵌入式特征选择是将特征选择过程与学习器训练过程融为一体，两者在同一个优化过程中完成，即在学习器训练过程中自动进行了特征选择。

另外，L1范数和L2范数正则化都有助于降低过拟合风险，但前者还会带来一个额外好处：它比后者更容易获得稀疏解，即它求得的w会更有更少的非零分量。

特征降维:

经典的方法：主成分分析

Ref:

《机器学习》10，11章节

First Snowflakes

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

First Snowflakes 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。