ISLR chapter 3 note

最新推荐文章于 2024-09-22 17:12:26 发布

weixin_30278311

最新推荐文章于 2024-09-22 17:12:26 发布

阅读量103

点赞数

文章标签：数据结构与算法

原文链接：http://www.cnblogs.com/someplace/p/7543663.html

版权

简单线性回归

多元线性回归

$\hat Y = \hat \beta_0 + \hat \beta_1 X_1 + \hat \beta_2 X_2\cdots$
- $RSS = \sum (y_i -\hat y_i)^2$
- $\beta_i$ 的选择使得 RSS 值最小
- $RSE = \sqrt{RSS/(n-2)}$ 残差标准偏差：越小证明模型越准确
- 标准差可用于计算置信区间
t- statistic:

$ t= \frac{ \hat \beta_1 - 0}{SE(\hat \beta_1)} $

t 服从 n-2 个自由度的 t 分布，因此可以计算 p 值。该公式为检验 $\hat \beta_1 =0 $ 的零假设。t越大， $\beta_1$越不可能为0，越能够说明 Y 与 $X_1$ 相关。
p 值：

$P(t \geq |t|) = p$

p 值越小，越能拒绝零假设，越说明 Y 与 $X_1$ 相关
$R^2$

$R^2 = 1 - \frac{RSS}{TSS}$ , $ TSS = \sum (y_i - \bar y_i )^2 $(总的平方和)

只有一个自变量， $R^2$ 等同于协方差
越接近1， RSS 越小，模型拟合越
刻画模型拟合好坏的方法
1. $R^2$，越大越好
2. RSE，越小越好

其他

定性预测：加入哑变量
模型拓展：加入交叉项（$X_1X_2$），即此时 $X_1$与$X_2$不独立，(如果加入交叉项，则必须保留 $X_i$的项，即使 p 值很大)
模型拓展：若有非线性关系存在，可考虑加入二次项
prediction interval && confidence interval 前者比后者宽，由于误差$\epsilon$ 的存在。前者针对一个具体的情况，后者属于统计上结果

问题

初始认定 f 为线性，如何判断模型是否为非线性，
1. 若为单自变量问题，可以使用残差图： $e_i=y_i - \hat y_i VS. x_i$
2. 若为多元回归问题，可以替代使用： $e_i VS. \hat y_i$
3. 若残差图显示存在非线性问题，采用自变量的非线性变形
异常值
1. 若 $y_i$ 异常，使用残差图，但难以决断。可使用 studentized residuals $= \frac{e_i}{SE(e_i)}$，一般某数据的studentized residuals的绝对值超过3就定性为异常值，需要进行处理如舍弃等。
2. 若 $x_i$ 异常，即某个$x_i$ 与其余 $x_i$ 距离较远。简单线性回归看图即可，多元线性回归，使用 leverage statistic. 比如说，这个检验公式在简单线性回归中是： $h_i = \frac1n +\frac{(x_i-\bar x)^2 }{\sum_j (x_j -\bar x)^2}$ ,超过所有 $h_i$ 平均值的即可视作异常值。
多个自变量之间存在相关性
1. 共线性降低系数估计的精准性，减小 t 值，可能不能拒绝零假设 $H_0: \beta_j =0$ ,
2. 检查共线性的方法：计算自变量的协方差矩阵，解决存在两个自变量之间的共线性，但三个及以上的共线性难以检查
3. 计算 variance inflation factor( VIF) , VIF 超过5/10，说明存在共线性问题，

转载于:https://www.cnblogs.com/someplace/p/7543663.html

weixin_30278311

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。