ISLR读书笔记十：模型选择——子集选择法（subsect selection）

最新推荐文章于 2023-06-11 17:43:45 发布

晓炜

最新推荐文章于 2023-06-11 17:43:45 发布

阅读量1.5k

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_43084570/article/details/109009598

版权

模型选择——子集选择法

前言
最优子集法（best subset selection）
逐步选择法（stepwise selection）
如何选取最优

前言

这篇文章主要讲的是模型选择（model selection）中的一类方法：子集选择法（subsect selection），接下来两篇文章将介绍模型选择的其他两类方法：收缩法（shrinkage）和降维法（dimension reduction）。
首先为什么要进行模型选择呢？以线性回归模型为例，主要出于预测准确性（prediction accuracy）和模型解释度（model interpretability）两方面的考虑。

模型准确性
当 $n$ 没有远大于 $p$ 时，利用最小二乘拟合得到的预测结果方差会很大；当 $n < p$ 时，最小二乘法失效，得不到唯一的参数估计。
模型解释度
多元回归模型中的某些自变量，可能与因变量毫无关联，而最小二乘法得到的无关因素的参数系数未必刚好是 0，所以若加入这些无关因素，可能会影响模型解释度。

最优子集法（best subset selection）

算法：

记 $M_0$ 为空模型（null model）（无自变量）。该模型预测的结果均为样本均值。
For $k=1,2,\cdots,p$ ：
拟合所有 $C_p^k$ 个包含 $k$ 个自变量的模型；
从这 $C_p^k$ 个模型选取最优的模型，记为 $M_k$ 。这里的最优，在线性回归问题中，可以是最小 $R S S$ 或者最大 $R^2$ 。
从 $M_0,M_1,\cdots，M_p$ 中选取最优模型。选取标准可以是交叉验证的预测误差，或者 $C_p(AIC), BIC,$ 调整后的 $R^2$ 。

优点： 简单

缺点： 受计算限制， $p$ 较大时运算量太大。

逐步选择法（stepwise selection）

优点： 运算量较小
缺点： 未必能选取最佳模型

向前逐步选择

算法：

记 $M_0$ 为无自变量的空模型（null model）
For

最低0.47元/天解锁文章

晓炜

关注

1
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
ISLR读书笔记十：模型选择——子集选择法（subsect selection）

模型选择——子集选择法前言最优子集法逐步选择法向前逐步选择向后逐步选择混合逐步选择如何评价最优前言这篇文章主要讲的是模型选择（model selection）中的一类方法：子集选择法（subsect selection），接下来两篇文章将介绍模型选择的其他两类方法：收缩法（shrinkage）和降维法（dimension reduction）。首先为什么要进行模型选择呢？以线性回归模型为例，主要出于预测准确性（prediction accuracy）和模型解释度（model interpretabil
复制链接

扫一扫