本文将就caret包中的数据分割部分进行介绍学习。主要包括以下函数:createDataPartition(),maxDissim(),createTimeSlices(),createFolds(),createResample(),groupKFold()等
基于输出结果的简单分割
createDataPartition函数用于创建平衡数据的分割。如果函数中的参数y是一个因子向量,则对每一类随机抽样,并且保持数据整体类别的分类。
createDataPartition(y, times = 1, p = 0.5, list = TRUE, groups = min(5, length(y)))
- y 结果向量
- times 创建分区的数目
- p 将要用于训练的数据的百分比
- list 逻辑值。true时,返回结果为列表形式,否则,为floor(p * length(y))行 times列的矩阵
- groups 对于数值y,样本根据百分位数分成组,并在这些子组内进行采样。百分比的数量通过groups参数设置。
基于特征变量的分割
函数maxDissim应用最大相异方法(maximum dissimiarity approach)创建子样本。假设有一个m个样本的数据集A和具有n个样本的一个大数据集B。我们希望从B中抽取和A不同的子样本。为了这