"""
1、Bootstrap采样
利用有限的样本经由 有放回的多次重复抽样 ,建立起充足的样本,解决了样本不足的问题。
Bootstrap是非参数统计方法,其实质是对观测信息进行再抽样,进而对总体的分布特性进行统计推断。
2、步骤
它是一种有放回的抽样方法,它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。其核心思想和基本步骤如下:
1.采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样
2.根据抽出的样本计算给定的统计量T。
3.重复上述N次(一般大于1000),得到N个统计量T。
4.计算上述N个统计量T的样本方差,得到统计量的方差。
同理,可以估计总体的均值等其余统计量
3、为什么要进行Bootstrap采样
数据集较小时是不错的选择。自助法在数据集较小、难以有效划分训练集和测试集时很有用;将多次随机抽样得到的样本作为训练集,将初始数据作为测试集。
对集成学习方法有帮助。此外,自助法能从初始数据集中产生多个不同的训练集,这对集成学习等方法有很大的好处。
稳健性和效率高。该方法充分利用了给定的观测信息,不需要模型其他的假设和增加新的观测,并且具有稳健性和效率高的特点
但会引入估计偏差。然而,自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差。因此,在初始数据量足够时,留出法和交叉验证法更常用一些。
"""
import numpy as np
from sklearn.utils import resample
"""
假设我们总体中有一部分女生,一部分男生,我们想知道他们的比例是否大体相当。那么我们采用