R package: Caret

本文介绍了数据预处理中的关键步骤,包括使用dummyVars进行特征水平转换、通过nearZeroVar识别几乎不变的变量、利用findLinearCombos发现共线性,以及如何应用preProcess进行数据标准化和缺失值填充。
摘要由CSDN通过智能技术生成

重要参考

https://topepo.github.io/caret/pre-processing.html#identifying-correlated-predictors


dummyVars:类似SQL的行列转换,把各个特征水平转为列

nearZeroVar:比如某一列数据大多数都是一个值,那么用十折交叉训练时,可能训练集里这一列就只有一个值,导致训练过程中出现一些问题,这个函数就是找出某一列只有一个值或者只有少数几个值且方差很小的

findLinearCombos:寻找某两列或者某几列间存在的共线性关系

preProcess:对数据进行中心化处理,缩放。需要缩放的典型例子是要计算欧式距离的时候,需要中心化的算法有主成分分析。此外还有一个impute的概念就是处理缺失值,比如用KNN算法填充缺失值。

createDataPartition:划分训练集和测试集

caret的train,rfe等函数都可以支持并行计算,R中实现并行计算的包有doMC和Foreach

varImp:计算变量的重要性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱知菜

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值