模型选择——子集选择法(Subset Selection)

一、 前言

模型选择方法有三种,分别是:子集选择法(subset selection), 收缩法(Shrinkage)和降维法(Dimension Reduction)。

这篇文章主要介绍模型选择的子集选择法。​​​​​​​
  \  

二、为什么要进行模型选择?

对于线性模型:
Y = β 0 + β 1 X 1 + . . . + β p X p + ϵ Y = \beta_{0} + \beta_{1}X_{1}+...+ \beta_{p}X_{p} +\epsilon Y=β0+β1X1+...+βpXp+ϵ
模型选择就是要:决定P的大小;确定哪些特征是重要的。

而进行模型选择,主要出于预测准确性(Prediction Accuracy)和模型解释度(Model Interpretability)两方面考虑。

  1. 模型准确性:当p > n时,最小二乘法失效,此时需要模型选择来控制方差,使模型成功拟合。
  2. 模型解释性:因为多元回归模型中的一些自变量可能与因变量无关,但最小二乘法得到的无关变量的系数可能不为0,此时需要通过模型选择移除某些无关特征。

  \  

三、模型选择标准

对于训练集来说,包含了所有变量的模型总是有着最小的RSS和最大的 R 2 R^2 R2,所以RSS和 R 2 R^2 R2不适合用来作为模型选择的标准。

通常情况下,我们希望选择拥有最小测试误差(Test error)的模型。那么我们该如何知道测试误差呢?

  1. 通过训练误差调整得到测试误差: Adjusted R 2 R^2 R2, Mallow’s Cp, AIC, BIC
  2. 直接预测测试误差: 校验集方法(Validation Set Approach), 交叉验证(Cross-validation)

1. 调整得到Test error

1.1 调整后的 R 2 R^2 R2 (Adjusted R 2 R^2 R2)

A

  • 9
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值