《西瓜书》笔记11：特征选择方法（一）

最新推荐文章于 2024-03-06 20:06:01 发布

鸟恋旧林XD

最新推荐文章于 2024-03-06 20:06:01 发布

阅读量714

点赞数

分类专栏：机器学习笔记文章标签：特征选择

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/niaolianjiulin/article/details/77163388

版权

机器学习笔记专栏收录该内容

36 篇文章 5 订阅

订阅专栏

1. 子集搜索与评价

1.1 概述

从给定的特征集合中，选择出相关特征子集的过程，称为特征选择。

为什么进行特征选择？

维数灾难。属性过多，选择出重要特征，后续学习减轻。从此意义上看，特征选择与降维动机相似，这两者是处理高维数据的两大主流技术。
去除不相关的特征降低学习任务的难度。抽丝剥茧留下关键因素。

特征选择不能丢失重要特征，否则导致欠拟合。给定数据集，若学习任务不同，则相关特征不同。因此无关特征，指的是与当前学习任务无关。

冗余特征：其包含的信息可从其他特征推演而来。如立方体已有特征长，宽，则底面积是冗余特征。一般的冗余特征不起作用，去除可减轻学习负担。但有时冗余特征会降低学习难度，当其恰好对应了完成学习任务所需的中间概念时，此时是有益的。

1.2 选取特征子集

从原始集合中选取一个包含了所有重要信息的特征子集。若没有任何先验知识，只能遍历所有可能子集。计算上不可行。

可行：产生候选子集。评价其好坏。基于评价结果产生下一个候选子集，再对其评价。不断持续下去，直至无法找到更好的候选子集为止。

此处涉及两个环节：如何根据评价结果获取下一个候选子集？如何评价候选子集的好坏？

第一个环节：子集搜索。给定特征集合，将每个特征看作一个候选子集，对d个候选单特征子集评价，选择最优的一个，作为第一轮的集。然后在上一轮的选定集中加入一个特征，构成包含两个特征的候选子集；迭代到某轮时加一个不如不加，则停止。逐渐增加相关特征的策略为前向搜索。

类似地，还可以从完整的特征集合开始，每次去掉一个无关特征，称为后向搜索。

上述策略是贪心策略，考虑本轮最优，局部最优解。计算上可行。不穷举则不能全局最优。

第二个环节：子集评价。给定数据集D，计算属性子集A的信息增益即可。信息增益越大，意味着特征子集A包含的有助于分类的信息越多。

这里写图片描述

特征选择方法 = 特征子集搜索 + 子集评价机制

决策树算法：前向搜索 + 信息熵

实际上，决策树可用于特征选择，树节点的划分属性所组成的集合，就是选择出的特征子集。其他的特征选择方法未必像决策树这样明显，但本质上都是显示或隐式地结合了子集搜索机制和子集评价机制。

常见的特征选择方法：

过滤式 filter
包裹式 wrapper
嵌入式 embedding

具体讨论见下节。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

鸟恋旧林XD CSDN认证博客专家 CSDN认证企业博客

码龄9年

142: 原创

6万+: 周排名

45万+: 总排名

64万+: 访问

: 等级

5494: 积分

384: 粉丝

325: 获赞

220: 评论

1030: 收藏

私信

关注

热门文章

分类专栏

最新评论

linux链接.a库时error adding symbols: file format not recognized
乐犬: 例如这里.a文件的信息，系统架构一栏中是ARM，这一栏为x86的时候就会报错。
linux链接.a库时error adding symbols: file format not recognized
乐犬: 是这样的，这里报ld链接.a库错：error addingg symbols file的错误，就可以使用readelf工具去查看目标.a文件，然后就会发现工程中的.a文件编译出来是x86类型而非arm类型，与工程中其他文件不一致，故链接失败。这个时候的解决方法就是将有问题的.a文件重新使用源码以arm的架构生成新的.a文件，然后再去链接整个工程 [code=plain] 文件：libnl-3.a(hashtable.o) ELF 头： Magic： 7f 45 4c 46 01 01 01 00 00 00 00 00 00 00 00 00 类别: ELF32 数据: 2 补码，小端序 (little endian) 版本: 1 (current) OS/ABI: UNIX - System V ABI 版本: 0 类型: REL (可重定位文件) 系统架构: ARM 版本: 0x1 入口点地址： 0x0 程序头起点： 0 (bytes into file) Start of section headers: 18168 (bytes into file) 标志： 0x5000000, Version5 EABI 本头的大小： 52 (字节) 程序头大小： 0 (字节) Number of program headers: 0 节头大小： 40 (字节) 节头数量： 24 字符串表索引节头： 23 [/code]
西电硕士论文 Latex 模板：填坑！
Marchosius: 大佬，文章怎么还要会员才能看了呀
西电硕士论文 Latex 模板：填坑！
魔芋蘸酱: 添加了楼主的代码，参考文献出现[?],请问怎么解决？如果方便，大佬可以分享一下你的latex文件吗？邮箱是2571679325@qq.com
浮点数和定点数的相互转换（浮点数量化为定点）
戈壁思绪万千的锅仔: 谢谢解答

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。