数据集划分的方法介绍

最新推荐文章于 2024-02-07 07:45:00 发布

lg23:59

最新推荐文章于 2024-02-07 07:45:00 发布

阅读量6.3k

点赞数 5

文章标签：机器学习深度学习算法神经网络

本文链接：https://blog.csdn.net/lg201601/article/details/106078129

版权

数据集的划分：

常用三种：留出法（hold-out）交叉验证法（k fold cross validation）自助法（bootstrapping）

1.Hold-out: 直接将数据集划分为两个互斥的集合，分别作为训练集和测试集，其中训练集一般是2/3 ~ 4/5

该方法两个注意点：

训练集和测试集的划分要尽可能的保持数据分布一致性，如分层采样（stratified sampling）
单次使用留出法的评估结果往往不够稳定和可靠，因此使用留出法时一般要采用若干次随机划分、重复进行试验评估取其平均值作为留出法的评估结果。

缺点：若训练集包含了绝大多数的样本，那么训练出的model更加接近于整个数据集训练出的结果，但是测试集的数量少了，评估结果就不一定准确了。若测试集的数量较多的话，那么训练集与整个数据集差别较大，训练出的模型与整个数据集训练出的结果相差也较大，从而降低了评估结果的保真性（fidelity）。

2.交叉验证法（cross validation）：将数据集划D分为k个大小相似的互斥子集，每个子集尽量保证数据分布的一致性（用分层采样）；每次用k-1个子集的并集作为训练集， 余下的那一个作为测试集，从而进行k次训练和测试，最终返回的是k个测试结果的均值。由于数据集存在多种划分方式， 为减小由于划分方式的不同而引入的差别，k着交叉验证通常要随机使用不同的划分方式重复p次，最终的评估结果是p次k折交叉验证结果的均值。（常见的有10次10折交叉验证）

3.留一法（Leave-One-Out简称LOO）（cross validation 特例）：假设数据集D包含m个样本，令k=m，显然留一发不再受随机样本划分方式的影响，因为留一法的训练数据集只比D少一个样本，训练出的模型与用D训练出的模型很相似，且评估结果也是测试了数据集D中所有的样本取得平均值，因此留一法的评估结果往往比较准确。但是留一法也有一个很大的缺陷就是计算量太大了，若D有一百万个样本那么就需要训练一百万个模型。

4.自助法（bootstrapping）: 给定包含m个样本的数据集D，我们对他进行采样产生D’：具体过程是：随机取一个样本放入D’中， 再将该样本放回到D中，使得该样本可以在下次采样时仍然可以被采到，这个过程重复m次就得到了包含m个数据集的D’。

显然原始数据集D和D’并不完全一样，某样本被始终采不到的概率为（1-1/m）^m, 取其极限为0.368，即通过自助法原始数据集约有0.368左右的数据没有出现在D’中，因此可以用D’作为训练集， D-D’作为测试集，这样的测试结果称为“包外估计”（out of bag estimate）

应用：自助法能从初始数据中产生多个不同的数据集，在数据集较小、难以划分训练集和测试集情况下很有用，对集成学习也有很大的好处，但也存在一定的问题，自助法改变了初始数据的分布，会引入估计偏差，一般在数据量足够的情况下交叉验证与留一法更加常用。