在对数据集划分训练集和测试集的时候,我们经常采用的有三种方法,其中留出法和交叉验证法已经在上一篇中有所说明。
本文将主要讲述自助法(bootstrapping)及其python实现。
在上一篇中,我们说明当数据量很小时,我们可以使用留一法,但是这种方法会造成计算复杂度过高。此时,我们引入自助法来解决问题。
1.理论说明
自助法: 给定包含m个样本的数据集 D D D,我们对它进行采样产生数据集 D ′ D' D′:每次随机从 D D D中挑选一个样本,将其复制到 D ′ D' D′中,然后再将其样本放回原始数据集 D D D中,使得该样本在下次采样的时候也可能被采到;这个过程重复执行m次,我们就得到了包含m个样本的数据集 D ′ D' D′。简而言