统计学中的Bootstrap方法(Bootstrap抽样)

      Bootstrap又称自展法、自举法、自助法、靴带法 ,  是统计学习中一种重采样(Resampling)技术,用来估计标准误差、置信区间和偏差

      Bootstrap是现代统计学较为流行的一种统计方法,在小样本时效果很好。机器学习中的Bagging,AdaBoost等方法其实都蕴含了Boostrap的思想,在集成学习的范畴里 Bootstrap直接派生出了Bagging模型.
 

子样本之于样本,可以类比样本之于总体

举例

栗子:我要统计鱼塘里面的鱼的条数,怎么统计呢?假设鱼塘总共有鱼1000条,我是开了上帝视角的,但是你是不知道里面有多少。

步骤

1. 承包鱼塘,不让别人捞鱼(规定总体分布不变)。
2. 自己捞鱼,捞100条,都打上标签(构造样本)
3. 把鱼放回鱼塘,休息一晚(使之混入整个鱼群,确保之后抽样随机)
4. 开始捞鱼,每次捞100条,数一下,自己昨天标记的鱼有多少条,占比多少(一次重采样取分布)。
5. 重复3,4步骤n次。建立分布。

(原理是中心极限定理)

       假设一下,第一次重新捕鱼100条,发现里面有标记的鱼12条,记下为12%,放回去,再捕鱼100条,发现标记的为9条,记下9%,重复重复好多次之后,假设取置信区间95%,你会发现,每次捕鱼平均在10条左右有标记,所以,我们可以大致推测出鱼塘有1000条左右。其实是一个很简单的类似于一个比例问题。这也是因为提出者Efron给统计学顶级期刊投稿的时候被拒绝的理由--"太简单"。这也就解释了,为什么在小样本的时候,bootstrap效果较好,你这样想,如果我想统计大海里有多少鱼,你标记100000条也没用啊,因为实际数量太过庞大,你取的样本相比于太过渺小,最实际的就是,你下次再捕100000的时候,发现一条都没有标记,就尴尬了。。。



 

在菜菜的机器学习sklearn系列,第12节主要讲解了集成学习(Ensemble Learning)的概念和常见的模型,以及如何使用sklearn库进行集成学习的实践。 集成学习是一种通过构建多个学习器的组合来提高预测准确性和泛化能力的方法。常见的集成学习模型包括Bagging、Boosting和随机森林等。 Bagging是一种通过自助重采样(Bootstrap Sampling)方法产生多个数据集,并训练多个基学习器的集成学习方法。在sklearn库,使用BaggingClassifier和BaggingRegressor类可以对分类和回归问题进行集成学习。 Boosting是一种通过逐步训练多个弱学习器,并依次对样本进行调整的方法,最终组合多个弱学习器的结果得到最终预测结果。在sklearn库,使用AdaBoostClassifier和AdaBoostRegressor类可以进行Boosting方法的集成学习。 随机森林(Random Forest)是一种通过同时使用多个决策树建模和预测的方法,通过对多个决策树的结果进行投票或平均得到最终结果。在sklearn库,使用RandomForestClassifier和RandomForestRegressor类可以进行随机森林的集成学习。 除了这些常见的集成学习模型之外,sklearn库还提供了其他集成学习相关的模型和功能,如ExtraTrees、Gradient Boosting、Voting Classifier等。菜菜老师通过具体的代码示例和实践案例,详细介绍了每个模型的使用方法和注意事项。 总的来说,通过学习集成学习的概念和常见模型,并掌握sklearn库相关的实现方法,菜菜的机器学习sklearn系列第12节为学习者提供了丰富的知识和实践经验,帮助大家更好地理解和运用集成学习方法来提升机器学习模型的性能。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值