ISLR第五章-重采样方法

5 重采样方法

In this chapter, we discuss two of the most commonly used resampling methods, cross-validation(交叉验证) and the bootstrap(自助法).

The process
of evaluating a model’s performance is known as model assessment(模型评估), whereas
the process of selecting the proper level of flexibility for a model is known as
model selection(模型选择).

5.1 Cross-Validation

In this section, we instead consider a class of methods that estimate the
test error rate by holding out a subset of the training observations from the
fitting process, and then applying the statistical learning method to those
held out observations.

5.1.1 The Validation Set Approach

随机分为两部分

这里写图片描述

从左图可以看出,当由1次变为2次时,均方差减少明显,之后次数再增加均方差减少不明显,甚至还有上升。
从右图可以看出,不同验证集的选择对均方差影响很大。

优点:原理简单,便于实施
缺点:

  1. 由于验证集选择的不同,测试错误率的波动很大
  2. 只有一部分数据被用于训练拟合模型,测试错误率可能被高估

5.1.2 Leave-One-Out Cross-Validation(LOOCV)

LOOCV

n个测试数据,取其中一个当验证集,剩下的n-1做为训练集。
最多可重复拟合模型n次。

这里写图片描述

克服了The Validation Set Approach的缺点,但这个方法计算量很大。

用最小二乘法来拟合模型时,LOOCV所用时间可以缩减到和只拟合一个模型相同??

5.1.3 k-Fold Cross-Validation

把观测集随机分成大小差不多一致的组,取一组做为验证集。LOOCV是k=n时的一个特例。
这里写图片描述

LOOCV has higher variance, but lower bias, than k-fold CV

5.2 The Bootstrap

The bootstrap is a widely applicable and extremely powerful statistical tool that can be used to quantify the uncertainty associated with a given estimator or statistical learning method.

我的理解是有放回地随机抽样。比如1,2,3要抽出5个样本可以是1 2 2 3 3,抽出三个可以是1 2 2。

这里举了一个例子,对两个收益分别为X和Y的资产进行投资,X占 α ,Y占 1α ,所以我们希望找出一个 α ,使得 Var(αX+(1α)Y) 最小。这个 α 值为

α=σ2YσXYσ2X+σ2Y2σXY

其中,

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值