特征选择问题

最新推荐文章于 2021-09-14 10:05:50 发布

joantian1984

最新推荐文章于 2021-09-14 10:05:50 发布

阅读量762

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/joantian1984/article/details/105276113

版权

特征选择的方法：数据驱动，领域专家。
数据驱动的特征选择常用方法：相关性，迭代删除（增加），基于模型。
相关性系数：皮尔逊系数，取值范围（-1,1）
迭代特征选择：假设我们已经确定了要用什么算法，如何知道哪个x的自己和作为特征最好
暴力解法：把所有可能的特征组合全部试一遍，用交叉检验来看哪个子集预测效果最好。复杂度：2的n次方
迭代特征选择：递增/递减
基于模型的特征选择算法：
一、随机森林特征选择方法1:gini importance
1，gini index:1-概率的平方和
2，gini decrease：每个节点的gini index-子节点gini index之和
3，gini importance：将所有树上相同特征节点的gini decrease加权和
二、随机森林特征选择方法2：mean decrease accuracy
1，训练出一个随机森林模型，在测试集检验得到accuracy0
2，随机重排（permutation）测试集某特征xi，检验得到accuracyi
3，（accuracy0-accuracyi）accuracy0即为特征 xi 的重要性
三、线性回归特征选择：L1正则化lasso，在L1正则化下，大部分系数会是一个接近0的数字，剩下的绝对值仍很大的系数，对应重要的特征

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
特征选择问题

特征选择的方法：数据驱动，领域专家。数据驱动的特征选择常用方法：相关性，迭代删除（增加），基于模型。相关性系数：皮尔逊系数，取值范围（-1,1）迭代特征选择：假设我们已经确定了要用什么算法，如何知道哪个x的自己和作为特征最好暴力解法：把所有可能的特征组合全部试一遍，用交叉检验来看哪个子集预测效果最好。复杂度：2的n次方迭代特征选择：递增/递减基于模型的特征选择算法：一、随机森林特征选...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。