机器学习笔记_回归_4: 最小二乘问题（2）

最新推荐文章于 2023-11-08 18:11:45 发布

LandscapeMi

最新推荐文章于 2023-11-08 18:11:45 发布

阅读量1.1k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/mijian1207mijian/article/details/49979155

版权

机器学习专栏收录该内容

48 篇文章 0 订阅

订阅专栏

subset的选择(特征选择)

参看博客：http://m.blog.csdn.net/blog/xbinworld/44284293
* lasso可以做特征选择(转化为求解次梯度:owl-qn)

自变量选择对于估计和预测的影响

全模型与选模型
全模型：设因变量为 $m$ 个： $y=\beta_0+\beta_1x_1,\cdots,+\beta_mx_m+\varepsilon$
选模型：从m中选择p个模型
$y=\beta_{0p}+\beta_{1p}x_1,\cdots,+\beta_{mp}x_p+\varepsilon_p$

=> 性质（证明略）

选模型预测值是有偏估计(劣势)
选模型预测的残差小（优势）
选模型有可能预测的均方误差比全模型小

=> 自变量的选择是有益的

子集回归的选择

从m个选择p的方法有 $C_m^p$ =>总是是 $2^m个$
自变量的选择准则：m个自变量的回归建模，所有可能子集为 $2^m$ 如何选择最优子集
=>残差平方和SSE最小的回归方差最好；
(SSE=残差平方和= $(y_i-\hat{y_i})^2$ )

$\sum\limits_{i=1}^{n}(y_i-\bar{y})^2=\sum\limits_{i=1}^{n}(\hat{y_i}-\bar{y})^2+\sum\limits_{i=1}^{n}(y_i-\hat{y})^2$

$\sum\limits_{i=1}^{n}(y_i-\bar{y})^2$ : 总离差平方和=SST
$\sum\limits_{i=1}^{n}(\hat{y_i}-\bar{y})^2:回归平方和=SSR$
$\sum\limits_{i=1}^{n}(y_i-\hat{y})^2:残差平方和=SSE$

记：增加一个变量后 $SSE_{p}$ => $SSE_{p+1}$

增减变量后, $SSE_{P+1} \leq SSE_{P}$

记：复决定系数: $R_{P+1}^2=1-\frac{SSE_{p+1}}{SST}; \quad R_{P}^2=1-\frac{SSE_{p}}{SST}$

因为：SST于自变量无关，所以 $R_{p+1}^2 \geq R_{p}^2$

准则1. 自由度调整复决定系数达到最大
准则2. 赤池信息量AIC达到最小(AIC最小的为最优的)： AIC=NLN(SSSE)+2P
准则3. $C_p$ 统计量达到最小

上述方法：遍历 $2^m-1$ 个子集，按照准则选择最优；

逐步回归

F检验（方差齐性检验）

$\sum\limits_{i=1}^{n}(y_i-\bar{y})^2=\sum\limits_{i=1}^{n}(\hat{y_i}-\bar{y})^2+\sum\limits_{i=1}^{n}(y_i-\hat{y})^2$

$\sum\limits_{i=1}^{n}(y_i-\bar{y})^2: 总离差平方和=SST$
$\sum\limits_{i=1}^{n}(\hat{y_i}-\bar{y})^2:回归平方和=SSR$
$\sum\limits_{i=1}^{n}(y_i-\hat{y})^2:残差平方和=SSE$
$SST=SSR+SSE$