西瓜书第十一章特征选择与稀疏学习笔记

最新推荐文章于 2024-07-24 18:14:54 发布

leiuser

最新推荐文章于 2024-07-24 18:14:54 发布

阅读量49

点赞数

文章标签：机器学习 Powered by 金山文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/leiuser/article/details/129674841

版权

11.1 子集搜索与评价

名词：

特征：属性

相关特征：对当前学习任务有用的属性

冗余特征：

信息可从其他特征中推演得出

若某冗余特征恰好对应了学习任务所需的“中间概念”，该冗余特征有益

特征选择：从给定的特征集合中选择出相关特征子集的过程

特征选择：

重要的数据预处理过程：获得数据->特征选择->训练学习器

原因

属性过多会导致维数灾难

去除无关特征会降低学习任务的难度

必须确保不丢失重要特征

特征选择方法：

特征选择可行方法：产生一个候选子集，评价其好坏，持续进行到无法找到更好的候选子集。两个问题：

如何根据评价结果找到下一个候选子集？

子集搜索

穷举搜索：这种方法涉及评估所有可能的特征或变量组合，对于大型数据集来说可能计算量大且耗时。

贪心搜索：如前向选择、后向消除、双向搜索，比穷举搜索更快，但可能无法找到最优解。

如何评价候选子集的好坏？

子集评价

对于每个候选特征子集，训练数据集来计算其信息增益，信息增益越大，特征子集包含的有助于分类的信息越多。

常见特征选择方法：

过滤式

包裹式

嵌入式

11.2 过滤式选择

特征选择过程与后续学习器无关

Relief (Relevant Features): 通过比较相邻的同类样本、异类样本之间的特征差异来估计特征的重要性

11.3 包裹式选择

特征子集的评价标准就是后续学习器的性能

LVW (Las Vegas Wrapper): 在Las Vegas method框架下使用随机策略进行子集搜索，并以最终分类器的误差为特征子集评价标准

11.4 嵌入式选择与正则化

特征选择过程与学习器训练过程融为一体

容易过拟合，缓解方法正则化

11.5 稀疏表示与字典学习

稀疏性：

数据集矩阵中，很多特征（矩阵列）与当前学习任务无关

矩阵中存在很多零元素：这种稀疏表达形式会带给学习任务很多好处

稀疏表示：将普通非稀疏数据转化为稀疏形式

字典学习：在给定一个字典（基向量组）的情况下，通过寻找每个输入信号最优的稀疏表示来提取信号的特征。这种表示可以用优化算法来求解，例如L1范数最小化

11.6 压缩感知

压缩感知：如何利用信号本身所具有的稀疏性，从部分观测样本中恢复原信号

感知测量

关注如何对原始信号进行处理以获得稀疏样本表示

重构恢复

如何基于稀疏性从少量观测中恢复原信号，是压缩感知的精髓

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
西瓜书第十一章特征选择与稀疏学习笔记

字典学习：在给定一个字典（基向量组）的情况下，通过寻找每个输入信号最优的稀疏表示来提取信号的特征。Relief (Relevant Features): 通过比较相邻的同类样本、异类样本之间的特征差异来估计特征的重要性。对于每个候选特征子集，训练数据集来计算其信息增益，信息增益越大，特征子集包含的有助于分类的信息越多。特征选择可行方法：产生一个候选子集，评价其好坏，持续进行到无法找到更好的候选子集。特征选择：从给定的特征集合中选择出相关特征子集的过程。特征子集的评价标准就是后续学习器的性能。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。