机器学习-R-特征选择

最新推荐文章于 2024-08-10 07:34:46 发布

tomdyq625

最新推荐文章于 2024-08-10 07:34:46 发布

阅读量1.4w

点赞数

分类专栏： R 文章标签： R 机器学习特征选择

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/python_learn/article/details/45008073

版权

特征选择是实用机器学习的重要一步，一般数据集都带有太多的特征用于模型构建，如何找出有用特征是值得关注的内容。

1. Feature selection: All-relevant selection with the Boruta package

特征选择两种方法用于分析：（1）最少最优特征选择（minimal-optimal feature selection)识别少量特征集合（理想状况最少）给出尽可能优的分类结果；（2）所有相关特征选择（all-relevant feature selection)识别所有与分类有关的所有特征。

本文使用Boruta包，它使用随机森林分类算法，测量每个特征的重要行（z score)。

2. 使用caret包

使用递归特征消除法，rfe参数

x，预测变量的矩阵或数据框

y，输出结果向量（数值型或因子型）

sizes，用于测试的特定子集大小的整型向量

rfeControl，用于指定预测模型和方法的一系列选项

一些列函数可以用于rfeControl$functions，包括：线性回归（lmFuncs），随机森林（rfFuncs），朴素贝叶斯(nbFuncs)，bagged trees（treebagFuncs)和可以用于caret的train函数的函数（caretFuncs）。

1）移除冗余特征

移除高度关联的特征。

Caret R包提供findCorrelation函数，分析特征的关联矩阵

最低0.47元/天解锁文章

关注

0
点赞
踩
46

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

tomdyq625 CSDN认证博客专家 CSDN认证企业博客

码龄22年

8: 原创

43万+: 周排名

96万+: 总排名

3万+: 访问

: 等级

438: 积分

6: 粉丝

3: 获赞

4: 评论

39: 收藏

私信

关注

热门文章

分类专栏

最新评论

机器学习-R-特征选择
zzx6678: 糖尿病的数据库名字
机器学习-R-特征选择
JadeQSY: 请问我跑出来的图好像是8个变量时y轴的accuracy最高呢不太懂了
机器学习-R-特征选择
qq_45775313: model <- train(diabetes~., data=PimaIndiansDiabetes, method="lvq", preProcess="scale", trControl=control)请问diabetes指的是啥呀，想套用代码的话该怎么改
TensorFlow安装及注意事项
九天飞日: 谢谢！

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。