简单线性回归
多元线性回归
$\hat Y = \hat \beta_0 + \hat \beta_1 X_1 + \hat \beta_2 X_2\cdots$
- $RSS = \sum (y_i -\hat y_i)^2$
- $\beta_i$ 的选择使得 RSS 值最小
- $RSE = \sqrt{RSS/(n-2)}$ 残差标准偏差: 越小证明模型越准确
- 标准差可用于计算置信区间
t- statistic:
$ t= \frac{ \hat \beta_1 - 0}{SE(\hat \beta_1)} $
t 服从 n-2 个自由度的 t 分布,因此可以计算 p 值。该公式为检验 $\hat \beta_1 =0 $ 的零假设。t越大, $\beta_1$越不可能为0,越能够说明 Y 与 $X_1$ 相关。
p 值:
$P(t \geq |t|) = p$
p 值越小,越能拒绝零假设,越说明 Y 与 $X_1$ 相关
$R^2$
$R^2 = 1 - \frac{RSS}{TSS}$ , $ TSS = \sum (y_i - \bar y_i )^2 $(总的平方和)
- 只有一个自变量, $R^2$ 等同于协方差
越接近1, RSS 越小,模型拟合越
刻画模型拟合好坏的方法
- $R^2$, 越大越好
- RSE, 越小越好
其他
- 定性预测: 加入哑变量
- 模型拓展: 加入交叉项 ($X_1X_2$),即此时 $X_1$与$X_2$不独立,(如果加入交叉项,则必须保留 $X_i$的项, 即使 p 值很大)
- 模型拓展: 若有非线性关系存在,可考虑加入二次项
- prediction interval && confidence interval 前者比后者宽,由于误差$\epsilon$ 的存在。前者针对一个具体的情况,后者属于统计上结果
问题
- 初始认定 f 为线性,如何判断模型是否为非线性,
- 若为单自变量问题,可以使用残差图: $e_i=y_i - \hat y_i VS. x_i$
- 若为多元回归问题,可以替代使用 : $e_i VS. \hat y_i$
- 若残差图显示存在非线性问题,采用自变量的非线性变形
- 异常值
- 若 $y_i$ 异常,使用残差图,但难以决断。可使用 studentized residuals $= \frac{e_i}{SE(e_i)}$,一般某数据的studentized residuals的绝对值超过3就定性为异常值,需要进行处理如舍弃等。
- 若 $x_i$ 异常, 即某个$x_i$ 与其余 $x_i$ 距离较远。简单线性回归看图即可,多元线性回归,使用 leverage statistic. 比如说,这个检验公式在简单线性回归中是: $h_i = \frac1n +\frac{(x_i-\bar x)^2 }{\sum_j (x_j -\bar x)^2}$ ,超过所有 $h_i$ 平均值的即可视作异常值。
- 多个自变量之间存在相关性
- 共线性降低系数估计的精准性,减小 t 值, 可能不能拒绝零假设 $H_0: \beta_j =0$ ,
- 检查共线性的方法: 计算自变量的协方差矩阵,解决存在两个自变量之间的共线性,但三个及以上的共线性难以检查
- 计算 variance inflation factor( VIF) , VIF 超过5/10, 说明存在共线性问题,