数据挖掘-基础知识-笔记汇总4：数据预处理-特征选择

最新推荐文章于 2022-03-17 13:38:50 发布

bensonrachel

最新推荐文章于 2022-03-17 13:38:50 发布

阅读量409

点赞数 1

分类专栏：数据挖掘文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bensonrachel/article/details/108391771

版权

数据挖掘专栏收录该内容

13 篇文章 3 订阅

订阅专栏

课程笔记第三篇

本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘：理论与算法》。视频在学堂在线或者b站都有。

第二章第五节-特征选择：

特征选择就是要找出那些数据中好的属性。

熵entropy：

衡量一个系统或者变量的值的不确定性，不确定性越大，熵值越大。

例如，如果男人和女人都是50%的话，这个时候是最不确定一个人的性别的，这个时候的熵值就会很高。

在0.5时熵最高为1，0或者1的时候熵值是最低的。

信息增益information gain：

当你知道一个额外的属性的时候，你对这个系统的不确定性降多少，就叫信息增益，原来的熵减去现在的熵，差值就是信息增益。越大越好，说明这个属性的效能越高，决策树时会用到。

特征属性子集搜索：

暴力列举法；

分支定界法（分支界限法？）：需要有个单调假设（比如某个子集一定比这个子集的子集要好），才能剪枝。

最优列举；但是要注意把最优的属性合一起不一定是最好的属性集（组合爆炸）；

一系列贪婪算法：

A. 序列前向选择( SFS , Sequential Forward Selection )

算法描述：特征子集X从空集开始，每次选择一个特征x加入特征子集X，使得特征函数J( X)最优。简单说就是，每次都选择一个使得评价函数的取值达到更优的特征加入，是一种简单的贪心算法。

算法评价：缺点是只能加入特征而不能去除特征。例如：特征A完全依赖于特征B与C，可以认为如果加入了特征B与C则A就是多余的。假设序列前向选择算法首先将A加入特征集，然后又将B与C加入，那么特征子集中就包含了多余的特征A。

B. 序列后向选择( SBS , Sequential Backward Selection )

算法描述：从特征全集O开始，每次从特征集O中剔除一个特征x，使得剔除特征x后评价函数值达到最优。

算法评价：序列后向选择与序列前向选择正好相反，它的缺点是特征只能去除不能加入。

另外，SFS与SBS都属于贪心算法，容易陷入局部最优值。

一些优化算法（ Optimization Algorithms）：

stimulated annealing 模拟退火；

Tabu Search 禁忌搜索；

genetic algorithm 遗传算法；

#跳脱出局部最优#

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘-基础知识-笔记汇总4：数据预处理-特征选择

课程笔记第三篇本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘：理论与算法》。视频在学堂在线或者b站都有。第二章第五节-特征选择：特征选择就是要找出那些数据中好的属性。熵entropy：衡量一个系统或者变量的值的不确定性，不确定性越大，熵值越大。例如，如果男人和女人都是50%的话，这个时候是最不确定一个人的性别的，这个时候的熵值就会很高。在0.5时熵最高为1，0或者1的时候熵值是最低的。信息增益information gain：当你知道一个额外的属性的
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。