统计学习:三大奇技(1)

统计学习

最近在处理信号的过程中发现自己的理论水平还是太低,因此需要提高自己的技术,因此开始恶补理论,写下了这个系列的文章。

三大神技

虽然统计的理论成熟完备有效,但现实的情况总是和理论分析时的有所区别,因此,本文将要介绍三种现实中实用技术之一的bootstrapping。

拔靴法(bootstrapping)

拔靴法(Bootstrapping)是指对当前手上有限的样本资料经过多次有放回的重复抽样,扩大样本集,重新建立起足以代表总体分布的大样本(这个命名来源是来自于一个俗语,一个人提着自己的鞋带上了天堂,比如不可实现)。
Bootstrapping 是通过具有统计具有相关特性的样本数据来获得该特性,它不断地从真实数据中进行抽样,以扩大之前得到的样本。因为样本数越大对于统计的效果就越好,同时对于估计结果的准确性更为有利,所以提出了该方法。与分析方法相比,bootstrapping 的优点在于,它无需对分布特性做严格的假定就能进行推断分析,这是因为它使用的数据就是真实数据。

统计学中,bootstrapping可以指依赖于重置随机抽样的一种扩大样本量的方法。bootstrapping可以用于计算样本估计的准确性。对于一个采样,我们只能计算出某个统计量(例如均值)的一个取值,无法知道均值统计量的分布情况。但是通过自助法(自举法)我们可以通过模拟计算出均值统计量的近似分布。有了假定的真实分布,很多依赖于此的统计处理就可以做了(比如说有你推出的结果来进而推断实际总体的分布)。

实现原理

bootstrapping方法的实现很简单,假设已经获得的的样本大小为 N N :

在原样本进行有放回的抽样,抽取M次。每抽取一次算作一个一个新的采样样本,重复该操作,直到形成很多的新样本集合,通过这些样本集合就可以计算出样本各个统计量的一个近似分布。
通常会把新样本的数量扩增到1000-10000。如果计算成本很小,或者对精度要求比较高,可以再增加新样本的数量。
优点:简单易行,操作方便。
缺点:bootstrapping的运用基于原始样本有很多假设,因此假设的成立与否会影响该方法使用的准确性。

对于分布 yθ y ( θ ) ,要估计的参数为 θ θ 。通过使用分析技术bootstrapping 估计的样本,可以得到 θ^ θ ^ 的近似统计量。

具体方法

具体方法是:从 y y 中重复抽取N 个大小为 T T 的样本,并用每个新样本重复计算θ^ ,即可得到一系列的 θ^ θ ^ 估计值,同时可分析它们的分布情况。Bootstrapping 并不对 θ^ θ ^ 抽样分布的形状提出要求,而是通过分析各次抽取后样本内统计量的变化,对抽样分布进行极大似然估计。从样本内不断生成新的抽样数据,并替代原先的抽样样本,用以计算所研究的统计量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值