重要参考
https://topepo.github.io/caret/pre-processing.html#identifying-correlated-predictors
dummyVars:类似SQL的行列转换,把各个特征水平转为列
nearZeroVar:比如某一列数据大多数都是一个值,那么用十折交叉训练时,可能训练集里这一列就只有一个值,导致训练过程中出现一些问题,这个函数就是找出某一列只有一个值或者只有少数几个值且方差很小的
findLinearCombos:寻找某两列或者某几列间存在的共线性关系
preProcess:对数据进行中心化处理,缩放。需要缩放的典型例子是要计算欧式距离的时候,需要中心化的算法有主成分分析。此外还有一个impute的概念就是处理缺失值,比如用KNN算法填充缺失值。
createDataPartition:划分训练集和测试集
caret的train,rfe等函数都可以支持并行计算,R中实现并行计算的包有doMC和Foreach
varImp:计算变量的重要性。