机器学习中的特征选择方法

最新推荐文章于 2022-09-06 00:50:08 发布

achiever_

最新推荐文章于 2022-09-06 00:50:08 发布

阅读量1k

点赞数

分类专栏：机器学习文章标签：机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/achieverxi/article/details/125531845

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Filter

过滤式筛选，指通过一些指标值来筛选特征，例如缺失率、方差、相关系数等。通常用于建模之前，提前过滤一波可能会干扰模型的特征。

一般计算的指标有：

1.缺失率：一般认为缺失率高的特征对于模型贡献度不大，如果只有少数非缺失值参与训练可能会导致模型在该特征上拟合出现偏差。

2.方差：一般期望特征的方差越大越好。若一个特征取值过于单一（极端情况下特征只有一个取值），那么它对于模型训练没有任何价值，方差大的特征说明其取值范围较广，丰富度高，模型可学习性好。

3.相关系数类：

a.皮尔逊相关系数：计算单个特征相对于y的线性相关系数；优点计算简单方便，缺点只能度量线性关系。

b.F-filter：对特征和y做线性回归，检验线性回归的效果是否显著，经过F-filter计算出的F值越大，说明特征对于y的效果越显著，特征越重要。

c.LR-filter：对特征和y做逻辑回归，检验逻辑回归的效果是否显著，计算出的值越大，特征越重要

d.KL散度类：适用于分类标签

4.PSI：特征在天维度上的PSI越小越好

Embedding

利用模型筛选特征。一般集成树模型在训练结束后都会有模型重要性的结果，通过模型自学习得到的特征排序来作为特征筛选的参考。这种方法操作简便，目前很多情况都会用到这种方法。

集成树模型例如XGB在训练结束后会输出特征的三种重要性排序：weight、gain、cover

weight：特征在分裂过程中出现的次数

total_gain：特征在分裂时产生的总贡献度

gain：total_gain / weight 特征平均带来的贡献度

total_cover：特征在分裂过程中影响到的总样本数

cover：特征平均影响到的样本数

Wrapper

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习中的特征选择方法

机器学习特征选择方法
复制链接

扫一扫

专栏目录

achiever_ CSDN认证博客专家 CSDN认证企业博客

码龄4年

2: 原创

63万+: 周排名

53万+: 总排名

1316: 访问

: 等级

21: 积分

1: 粉丝

0: 获赞

1: 评论

2: 收藏

私信

关注

热门文章

分类专栏

机器学习 1篇

最新文章

数组-双指针

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。