ISLR线性回归笔记

最新推荐文章于 2023-06-30 20:56:28 发布

Young_Gy

最新推荐文章于 2023-06-30 20:56:28 发布

阅读量2k

点赞数 2

文章标签：线性回归

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Young_Gy/article/details/46315921

版权

一个例子

根据Auto数据集中的数据，建立mpg~hoursepower之间的线性关系。

问题

有如下的问题：

在 $X$ 和 $Y$ 之间是否存在关系？
在 $X$ 和 $Y$ 之间关系的强度如何？
在 $X$ 和 $Y$ 之间关系是正相关还是负相关？
当horsepower是98时，95%的置信区间和预测区间分别是多少？
画出线性回归图
画出诊断图

答案

1.先对数据做初步的描述性分析
这里写图片描述

对单个的predicter做是否有效（不等于0）的检验可以使用t-test，但是对整体做是否有效（至少有一个系数不等于0）则需要用F-test。

由上图中，F-statistic：599.7 on 1 and 390 DF， p-value<2.2e-16。
假定虚无假说（所有的系数都为0）为真，因为F检定远远大于1并且其对应的p值非常靠近0，因此我们拒绝虚无假说，承认数据显著性（statistically significant），predicter和responser之间是有关系的。

2.判断模型的强弱有两种方法（RSE和R2）

RSE：mpg的平均值为23.4459184，lm.fit的RSE（residual standard error）为4.906，两者相除表明残差率为20.92%。
R2：lm.fit的R2为0.606，意味着mpg有60.6%的方差可以被horsepower解释。

3.相关关系是负相关，因为horsepower的coefficient系数为负。

4.置信区间和预测区间如下

5.线性回归图如下
这里写图片描述

6.诊断图如下
这里写图片描述

线性回归

回归概述

Y = β 0 + β 1 X + ϵ

$Y = \beta_0 + \beta_1 X + \epsilon$

$\epsilon$ 项捕获了所有的误差情况，例如模型非线性、X包含不完全、测量误差等。同时默认误差项 $\epsilon$ 独立于 $X$ 。

一些参数

RSS(residual sum of squares)

R S S = e 21 + e 22 + . . . + e 2 n

$RSS=e_1^2+e_2^2+...+e_n^2$

用样本参数去估计群体参数有多精确，引入了standard error of $\hat{\mu}$

V a r (μ ̂) = S E (μ ̂) 2 = σ 2 n

$Var(\hat{\mu})=SE(\hat{\mu})^2 = \frac{\sigma^2}{n}$

其值域会随着n的增大皱缩，表示了估计量到真实量之间的距离。

对于线性回归
这里写图片描述

其中， $\sigma^2=Var(\epsilon)$ 。为了让上式有效，应该假定误差项 $\epsilon$ 独立不相关且方差一样，但即使不满足问题也不是特别大。
同时，注意到当x分布越广， $SE(\hat{\beta1})$ 越小。这和我们的直觉相符合：当数据分布越广泛，对斜率的估计越准确。

值得注意的是，虽然 $\sigma^2$ （误差项的方差）未知，但是可以从数据集中估计出来，使用的方法为residual standard error，其公式为

R S E = R S S / (n - 2) ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt

$RSE = \sqrt{RSS/(n-2)}$
RSE可以被用来计算置信区间（confidence intervals），95%的置信区间意味着有95%的概率区间包含真实值，区间具体为

β 1^\pm 2 * S E (β 1^)

$\hat{\beta_1} \pm 2*SE(\hat{\beta1})$

同时， $SE(\hat{\beta1})$ 还可以进行系数的假设检验，即是否系数离0足够远。如果 $SE(\hat{\beta1})$ 比较小，那么即使比较小的系数值，检验结果也可能是数据显著的。

通常，我们计算t统计量。

t = β 1 ^ - 0 S E ( β 1 ^ )

$t = \frac{\hat{\beta_1}-0}{SE(\hat{\beta1})}$
上式测量了

β1 $\beta_1$ 距离0有多少个

SE(β1^) $SE(\hat{\beta1})$ 。如果X和Y真的没有关系，那么我们期望t值会有n-2自由度的t分布（钟形曲线，如果n>30则很接近正态曲线）。

模型精度

RSE

RSE(residual standard error)

R S E = R S S / (n - 2) ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt

$RSE = \sqrt{RSS/(n-2)}$
RSE通常被认为the lack of fit of the model。如果RSE很小，一般认为模型与数据配合地很好。

$R^2$

R 2 = T S S - R S S T S S

$R^2 = \frac{TSS-RSS}{TSS}$
R2可以用来衡量多个变量的共同作用效果，相关系数cor一般用来衡量一对变量的相关性。

重要的问题

X和Y之间是否存在关系

使用F检定

F = ( T S S - R S S ) / p R S S / ( n - p - 1 )

$F = \frac{(TSS-RSS)/p}{RSS/(n-p-1)}$
F足够大于1则可以证明数据显著性，更具体可以使用p-value。

决定重要的变量

forward selection：从0变量开始逐个重复增加变量。
back selection: 从全模型开始移除最大的P值变量。
mixed selection：先增加，增加的过程中删除变大的且不满足p值要求的变量。

模型拟合

当加入新的变量，R2总是提高的，但是RSE不一定，两者都要参考决定适合的模型。

预测

预测区间比置信区间更广。

协同作用

hierarchical principle所述：如果我们包含了两个变量的协同作用，那么初始作用也得包括，即使p值检定不是数据显著。

非线性关系

可以利用多项式构建非线性关系。

潜在的问题

非线性

这里写图片描述
我们可以尝试 $log X,\sqrt{X},X^2$ 等非线性参数。

误差项的相关性

如果误差项相关，那么置信区间将会比应该的更窄，变得没有保障。
这里写图片描述

误差项的非常数

这里写图片描述
遇到上述情况，可以使用 $logY、\sqrt{Y}$ 。

越值点

这里写图片描述
通常把studentized residual>3的点认为是outlier。

杠杆点

越值点只有杠杆足够大时，才有很大的效果。
这里写图片描述

共线性

这里写图片描述
共线性会导致最值的RSS的范围变大，导致系数估计的不确定性增大（置信区间变大）， $SE(\beta)$ 变大，t值变小，很可能导致显著性检验失败，偏向于虚无假设。

检查共线性，有两种方法：
1.相关矩阵：适应与成对变量的共线性
2.VIF（variance inflation factor），其超过5和10则意味着共线性的存在。

线性回归与KNN的比较

线性回归是参数性的方法，事先假定了模型，KNN则不然，其K值越小，灵活性越大，意味着更高的variance和更小的bias。

理论上，非参数的方法在线性情况下略差于LR，在非线性的情况下极好于LR。
但是，现实情况一般是高维的，维度的增高对LR的MSE影响较小，但是对KNN的影响极大，在高维空间中会造成样本数的相对减少，名之curse of dimension。

参考

ISLR Fourth Printing

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
ISLR线性回归笔记

线性回归
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。