ISLR读书笔记十:模型选择——子集选择法(subsect selection)

前言

这篇文章主要讲的是模型选择(model selection)中的一类方法:子集选择法(subsect selection),接下来两篇文章将介绍模型选择的其他两类方法:收缩法(shrinkage)和降维法(dimension reduction)。
首先为什么要进行模型选择呢?以线性回归模型为例,主要出于预测准确性(prediction accuracy)和模型解释度(model interpretability)两方面的考虑。

  1. 模型准确性
    n n n 没有远大于 p p p 时,利用最小二乘拟合得到的预测结果方差会很大;当 n < p n<p n<p 时,最小二乘法失效,得不到唯一的参数估计。
  2. 模型解释度
    多元回归模型中的某些自变量,可能与因变量毫无关联,而最小二乘法得到的无关因素的参数系数未必刚好是 0,所以若加入这些无关因素,可能会影响模型解释度。

最优子集法(best subset selection)

算法:

  1. M 0 M_0 M0 为空模型(null model)(无自变量)。该模型预测的结果均为样本均值。
  2. For k = 1 , 2 , ⋯   , p k=1,2,\cdots,p k=1,2,,p
    拟合所有 C p k C_p^k Cpk 个包含 k k k 个自变量的模型;
    从这 C p k C_p^k Cpk 个模型选取最优的模型,记为 M k M_k Mk 。这里的最优,在线性回归问题中,可以是最小 R S S RSS RSS 或者最大 R 2 R^2 R2
  3. M 0 , M 1 , ⋯ , M p M_0,M_1,\cdots,M_p M0,M1,Mp 中选取最优模型。选取标准可以是交叉验证的预测误差,或者 C p ( A I C ) , B I C , C_p(AIC), BIC, Cp(AIC),BIC,调整后的 R 2 R^2 R2

优点: 简单

缺点: 受计算限制, p p p 较大时运算量太大。

逐步选择法(stepwise selection)

优点: 运算量较小
缺点: 未必能选取最佳模型

向前逐步选择

算法:

  1. M 0 M_0 M0 为无自变量的空模型(null model)
  2. For k
  • 1
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值