【机器学习】特征选择与稀疏学习

最新推荐文章于 2023-09-16 00:15:00 发布

Big Orange...

最新推荐文章于 2023-09-16 00:15:00 发布

阅读量1.4k

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/liuzhicheng1845/article/details/122086484

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

信息熵就二进制的字符集在去掉冗余度后的二进制编码位数.冗余度是通过统计每个字符出现概率获得的。
信息熵：https://blog.csdn.net/xyisv/article/details/80273679?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Edefault-1.highlightwordscore&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Edefault-1.highlightwordscore

http://www.360doc.com/content/21/0930/22/7673502_997799360.shtml
特征：feature
相关特征：relevant feature
无关特征：irrelevant feature
特征选择：feature selection
冗余特征：redundant feature

去除冗余特征和无关特征

分析特征、训练模型所需的时间就越长，模型也会越复杂。

容易引起“维度灾难”，其推广能力会下降。

容易导致特征稀疏的问题，导致模型效果下降。

对于模型来说，可能会导致不适定的情况，即是解出的参数会因为样本的微小变化而出现大的波动

在这里插入图片描述
基于冗余分析的特征选择算法
http://html.rhhz.net/buptjournal/html/20170106.htm

三类特征选择方法

1.过滤式特征选择方法
在这里插入图片描述

Relief方法
选择前 k 个大的相关统计量对应的特征，或者大于某个阈值的相关统计量对应的特征即可。
（1）相关统计量
在这里插入图片描述给定训练集{(x1,y1),(x2,y2)…(xm,ym)} ，对每个示例xi，Relief在xi的同类样本中寻找其最近邻xi,nh（猜中近邻），再从xi的异类样本中寻找其最近邻xi,nm(猜错近邻)

（2）统计量
统计量：一个向量，向量的每个分量是对其中一个初始特征的评价值
特征子集的重要性：子集中每个特征所对应的相关统计量之和。
（3）假设间隔
Relief 借用了“假设间隔”（hypothesis marginhypothesis margin）的思想，
在分类问题中，常常会采用决策面的思想来进行分类，“假设间隔”就是指在保持样本分类不变的情况下，决策面能够移动的最大距离

2.包裹式选择
在这里插入图片描述

3.嵌入式

Big Orange...

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】特征选择与稀疏学习

特征：feature相关特征：relevant feature无关特征：irrelevant feature特征选择：feature selection冗余特征：redundant feature去除冗余特征和无关特征分析特征、训练模型所需的时间就越长，模型也会越复杂。容易引起“维度灾难”，其推广能力会下降。容易导致特征稀疏的问题，导致模型效果下降。对于模型来说，可能会导致不适定的情况，即是解出的参数会因为样本的微小变化而出现大的波动。三类特征选择方法1.过
复制链接

扫一扫