机器学习特征选择方法

最新推荐文章于 2024-04-22 20:12:23 发布

hellocsz

最新推荐文章于 2024-04-22 20:12:23 发布

阅读量1.9k

点赞数 1

特征决定上限，模型逼近上限。

特征选择对后面的模型训练很重要，选择合适重要的特征，对问题求解尤为重要，下面介绍一些常见的特征选择方法。

通常来说，从两个方面考虑来选择特征：

特征是否发散：如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。
特征与目标的相关性：这点比较显见，与目标相关性高的特征，应当优选选择。

①相关系数法使用相关系数法，先要计算各个特征对目标值的相关系

常用的有皮尔逊相关系数，斯皮尔曼秩系数，可见本博客中的相关分析http://blog.csdn.net/u014755493/article/details/69744860

②构建单个特征的模型，通过模型的准确性为特征排序，借此来选择特征

③通过L1正则项来选择特征：L1正则方法具有稀疏解的特性，天然具备特征选择的特性

分别使用L1和L2拟合，如果两个特征在L2中系数相接近，在L1中一个系数为0一个不为0，那么其实这两个特征都应该保留，原因是L1对于强相关特征只会保留一个

④训练能够对特征打分的预选模型：RandomForest和LogisticRegression/GBDT等都能对模型的特征打分，通过打分获得相关性后再训练最终模型

⑤通过特征组合后再来选择特征：如对用户id和用户特征最组合来获得较大的特征集再来选择特征，这种做法在推荐系统和广告系统中比较常见

⑥深度学习

⑦传统用前进或者后退法的逐步回归来筛选特征或者对特征重要性排序，对于特征数量不多的情况还是适用的。

⑧方差选择法，计算各个特征的方差，然后根据阈值，选择方差大于阈值的特征

⑨卡方检验，经典的卡方检验是检验定性自变量对定性因变量的相关性
详见本博客卡方检验及其应用http://blog.csdn.net/u014755493/article/details/69791657

⑩互信息法(信息增益)，互信息法经典的互信息也是评价定性自变量对定性因变量的相关性的
互信息指的是两个随机变量之间的关联程度，即给定一个随机变量后，另一个随机变量不确定性的削弱程度，因而互信息取值最小为0，意味着给定一个随机变量对确定一另一个随机变量没有关系，最大取值为随机变量的熵，意味着给定一个随机变量，能完全消除另一个随机变量的不确定性。
互信息是用来评价一个事件的出现对于另一个事件的出现所贡献的信息量，具体的计算公式为：

其中U、C代表两个事件，e的取值可以为0或者1，1代表出现这个事件，0代表不出现。

原文：https://blog.csdn.net/u014755493/article/details/70255493

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
机器学习特征选择方法

特征决定上限，模型逼近上限。特征选择对后面的模型训练很重要，选择合适重要的特征，对问题求解尤为重要，下面介绍一些常见的特征选择方法。通常来说，从两个方面考虑来选择特征：特征是否发散：如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。特征与目标的相关性：这点比较显见，与目标相关性高的特征，应当优选选择。①相关系数法使用...
复制链接

扫一扫

hellocsz CSDN认证博客专家 CSDN认证企业博客

码龄6年

12: 原创

2万+: 周排名

105万+: 总排名

394万+: 访问

: 等级

2万+: 积分

566: 粉丝

1432: 获赞

180: 评论

5272: 收藏

私信

关注

热门文章

分类专栏

笔记 4篇
个人 41篇

最新评论

激活函数的作用
护花使者769: 这里补充一下，这条直线用来做分类，直线上方是一种分类，直线下方是一种分类，当前预测就是是否属于直线上方这个分类，所以下方的点自然是得分是负的或者很负的很多
激活函数的作用
护花使者769: wx+b =.y 分类时，数据属于某分类时，可能计算的结果y就是大一点，或者大很多代表这种分类在直线的上方，所以y很大反之如果是在直线的下方，那么它的y值要比这个直线的y值小很多而实际的需要就是概率。小很多，那就是负的。说明是不属于当前预测的分类，希望得到结果是0 如果大很多。说明是当前预测的分类，希望得到的结果是1 因为这里01代表了概率输入的数据在二分类问题里边，要么属于这个分类的概率1，要么概率0那么要处理这个问题，只能引入了sigmod函数。这函数的特点就是当y非常大的时候。它的值趋近于一反之它的值趋近于0 这就相当于概率了。可以看作是概率，实际还有差别
差分
一只迷路的温迪: 图呢？图呢？
如何查看mysql数据库的引擎
baidu_38417653: 都是抄的，烂透了
数组模块array的大部分属性及方法的应用
齐天0104: extend没成功

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。