ISLR chapter 3 note

简单线性回归

  • 多元线性回归

    $\hat Y = \hat \beta_0 + \hat \beta_1 X_1 + \hat \beta_2 X_2\cdots$

    • $RSS = \sum (y_i -\hat y_i)^2$
    • $\beta_i$ 的选择使得 RSS 值最小
    • $RSE = \sqrt{RSS/(n-2)}$ 残差标准偏差: 越小证明模型越准确
    • 标准差可用于计算置信区间
  • t- statistic:

    $ t= \frac{ \hat \beta_1 - 0}{SE(\hat \beta_1)} $

    t 服从 n-2 个自由度的 t 分布,因此可以计算 p 值。该公式为检验 $\hat \beta_1 =0 $ 的零假设。t越大, $\beta_1$越不可能为0,越能够说明 Y 与 $X_1$ 相关。

  • p 值:

    $P(t \geq |t|) = p$

    p 值越小,越能拒绝零假设,越说明 Y 与 $X_1$ 相关

  • $R^2$

$R^2 = 1 - \frac{RSS}{TSS}$ , $ TSS = \sum (y_i - \bar y_i )^2 $(总的平方和)

  • 只有一个自变量, $R^2$ 等同于协方差
  • 越接近1, RSS 越小,模型拟合越

  • 刻画模型拟合好坏的方法

    1. $R^2$, 越大越好
    2. RSE, 越小越好

其他

  • 定性预测: 加入哑变量
  • 模型拓展: 加入交叉项 ($X_1X_2$),即此时 $X_1$与$X_2$不独立,(如果加入交叉项,则必须保留 $X_i$的项, 即使 p 值很大)
  • 模型拓展: 若有非线性关系存在,可考虑加入二次项
  • prediction interval && confidence interval 前者比后者宽,由于误差$\epsilon$ 的存在。前者针对一个具体的情况,后者属于统计上结果

问题

  • 初始认定 f 为线性,如何判断模型是否为非线性,
    1. 若为单自变量问题,可以使用残差图: $e_i=y_i - \hat y_i VS. x_i$
    2. 若为多元回归问题,可以替代使用 : $e_i VS. \hat y_i$
    3. 若残差图显示存在非线性问题,采用自变量的非线性变形
  • 异常值
    1. 若 $y_i$ 异常,使用残差图,但难以决断。可使用 studentized residuals $= \frac{e_i}{SE(e_i)}$,一般某数据的studentized residuals的绝对值超过3就定性为异常值,需要进行处理如舍弃等。
    2. 若 $x_i$ 异常, 即某个$x_i$ 与其余 $x_i$ 距离较远。简单线性回归看图即可,多元线性回归,使用 leverage statistic. 比如说,这个检验公式在简单线性回归中是: $h_i = \frac1n +\frac{(x_i-\bar x)^2 }{\sum_j (x_j -\bar x)^2}$ ,超过所有 $h_i$ 平均值的即可视作异常值。
  • 多个自变量之间存在相关性
    1. 共线性降低系数估计的精准性,减小 t 值, 可能不能拒绝零假设 $H_0: \beta_j =0$ ,
    2. 检查共线性的方法: 计算自变量的协方差矩阵,解决存在两个自变量之间的共线性,但三个及以上的共线性难以检查
    3. 计算 variance inflation factor( VIF) , VIF 超过5/10, 说明存在共线性问题,

转载于:https://www.cnblogs.com/someplace/p/7543663.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值