Statistic Learning 1

最新推荐文章于 2024-08-16 09:34:34 发布

GodWriter

最新推荐文章于 2024-08-16 09:34:34 发布

阅读量476

点赞数 1

分类专栏：统计学习文章标签：统计学习线性回归

本文链接：https://blog.csdn.net/GodWriter/article/details/105335126

版权

统计学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1. RSS, RSE, TSS等

RSS（Residual Sum of Squares）

$e_1^2 + e_2^2 + e_3^2 + ... + e_n^2 \\ =(\hat{y_1} - \hat{\beta_0} - \hat{\beta_1}x_1) + ... + (\hat{y_n} - \hat{\beta_0} - \hat{\beta_1}x_n) \\ = \sum_{i=1}^n(y_i - \hat{y_i})^2$

RSS定义了，在进行了回归之后，模型未能解释的变量。

RSE（Residual Standard Error）

$\sqrt{\frac{RSS}{n-2}} \\ =\sqrt{\frac{1}{n-2}\sum_{i=1}^n(y_i-\hat{y_i})^2}$

RSE说明了，即使再好的回归模型也存在着RSE置信区间之内的误差，即模型对于数据的欠拟合程度。

TSS（Total Sum of Squares）

$\sum_{i=1}^n(y_i - \overline{y})$

其中 $\overline{y} = \frac{1}{n}y_i$ 。TSS定义了 $y$ 自身的方差，即衡量了 $Y$ 中 $y$ 固有的变化程度。

$R^2$

$R^2 = \frac{TSS-RSS}{TSS} = 1-\frac{RSS}{TSS}$

$T S S$ ：衡量了 $Y$ 中 $y$ 固有的变化程度。
$R S S$ ：进行回归之后，模型未能解释的变量值
$T S S - R S S$ ：固有的变化程度 - 未能解释的变量值 = 能解释的变量值
$\frac{TSS-RSS}{TSS}$ ：已经解释的变量值占所有固有变化的比例

$R^2$ 的变化区间为 $(0, 1)$ ，与 $y$ 的尺度无关。所以，理论上 $R^2$ 越大应该越好，即大量的变量可以被回归所解释。但实际场景中， $R^2$ 的值要看应用。

$F - s t a t i s t i c$ 用于估计 $H_0$

$\frac{(TSS - RSS)/p}{RSS/(n-p-1)}$

其中， $n$ 为样本个数， $p$ 为多项式回归中的回归系数的个数

$T S S$ ： $y$ 固有的方差，及固有的变量
$R S S$ ：回归后，未能解释的变量
$T S S - R S S$ ：回归后，能够解释的变量
$\frac{TSS-RSS}{p}$ ：回归后，每个 $p r e d i c t o r$ 所占的解释比例 （1）
$\frac{RSS}{n-p+1}$ ：回归后，每个样本未能被解释的比例 （2）
$\sigma=RSE=\sqrt{\frac{RSS}{n-2}}$ ：每个样本的未能被解释的占比 （3）

若对于上述的 （1），（2），（3） 式

（1）=（3），意味着每个 $p r e d i c t o r$ 能解释的占比很低
（2）=（3），意味着每个样本能比解释的占比很低
可以推出 $F - s t a t i s t i c = 1$ ，即

$\beta_1 = \beta_2 = ...= \beta_n = 0$

说明各个 $p r e d i c t o r$ 对预测 $y$ 都是没有帮助的。

若对于上述的 （1），（2），（3） 式

（1）>（3），意味着每个 $p r e d i c t o r$ 能解释的占比很高
（2）=（3），意味着每个样本能比解释的占比很低
可以推出可以推出 $F - s t a t i s t i c > 1$ ，可以推出

$至少有一\beta_i,i\in\{1,2,...,p\}不为0$

$F - s t a t i s t i c$ ，用于检验部分predictors是否为0

$\frac{(RSS_0 - RSS)/q}{RSS/(n-p-1)}$

$RSS_0$ ：省略了 $q$ 个 $p r e d i c t o r s$ 的模型的 $R S S$
$RSS_0 - RSS$ ：即这 $q$ 个 $p r e d i c t o r$ 能够解释的变量
$\frac{(RSS_0 - RSS)}{q}$ ：平均每个 $q$ 能解释的变量的比例
$\frac{RSS}{n-p-1}$ ：平均每个样本未能被解释的比例

如果使用个体的 $t - s t a t i s t i c$ 和相关的 $p - v a l u e$ 来衡量变量和响应之间的关系，很可能会得到错误的结论。

2. Variable selection

在一个多元回归式中，究竟哪些变量是和 $y$ 有关系的？将没有关系的找出来

若是 $p = 2$ ，即有两个 $p r e d i c t o r$ ，那么需要设计4个模型
- No variable
- 只包含 $X_1$
- 只包含 $X_2$
- 包含了 $X_1,X_2$
然后对每个模型，可用如下指标进行检验： $R^2, BIC, AIC, C_p$ 。但是当 $p$ 特别打的时候，如 $p = 20$ ，那么就需要 $2^{20}$ 个子集，这样做效率过低。故需要其他的手段
Forward Selection

先假设一个参数为空的模型，只有截距 $\beta_0$ 。此外，有训练好了的 $p$ 个 $v a r i a b l e$ 。一个个往模型中加 $v a r i a b l e$ ，并保证最低的 $R S S$ 。满足某个条件的时候停止
Backward Selection

先假设所有的 $v a r i a b l e$ 都要。然后，选择 $p - v a l u e$ 最大的删除。不断地重复，直到满足某条件；如设定好 $p - v a l u e$ 的阈值。
Mixed Selection

先假设一个参数为空的模型。然后，不断地加 $V a r i a b l e$ 进去，且保证加进去的使 $p - v a l u e$ 最小，一旦超过了某个阈值，该 $v a r i a b l e$ 就先放在一旁。最后， $p - v a l u e$ 分成两份，一份使得整个模型的 $p - v a l u e$ 都较小，另一份使得 $p - v a l u e$ 都较大。

3. Model Fit

两个衡量指标： $R^2,RSE$

对于 $R S E$ 来说，具有较多变量的模型都有更大的 $R S E$ ，只要 $R S S$ 增长的幅度比 $p$ 小，如下公式：

$\sqrt{\frac{1}{n-p-1}RSS}$

4. Prediction

两个error
- Random Error $\epsilon$ 不可控错误。即其他不明的错误未考虑进来，完美的变量是不可能被找到的，只能被估计。
- Model Bias是可控变量。可以通过不断地做实验，或训练模型来减少它。
两个interval
- Confidence interval。针对大部分城市的销售量区间， $95\%$ 的区间内包含了真实的值。
- Prediction interval。针对某个特定城市的销售量区间， $95\%$ 的区间包含了真实的值。
- 两个interval拥有相同的中心，但是prediction interval的范围比confidence interval的更加广。

5. 两个强假设

Predictors and Responses are additive and linear

Additive

Predictor $x_i$ 的改变，那么 $y$ 也相应的改变 $\beta_i$ 的大小，和其他的predictors无关。即 $x_i$ 造成的影响和其他的predictors相互独立。
Linear

Predictor $x_i$ 每次的改变 $1 - u n i t$ 对于 $y$ 来说效果是一致的，无任何叠加的变化。

移除Additive假设，扩展线性回归

当为线性回归的时候，

$\beta_0 + \beta_1x_1 + \beta_2x_2 + \epsilon$

此时 $x_1$ 的变化，会使得 $Y$ 的变化只和 $\beta_1x_1$ 相关，未考虑到 $x_2$ 对于 $x_1$ 的影响，可能也会对 $Y$ 造成影响。
对线性回归进行扩展，如下：

$\beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_1x_2 + \epsilon \\ =\beta_0 + (\beta_1 + \beta_3x_2)x_1 + \beta_2x_2 + \epsilon \\ =\beta_0 + \tilde{\beta_1}x_1 + \beta_2x_2 + \epsilon$

此时， $x_1$ 的变化会有 $x_2$ 的参与， $x_1$ 和 $x_2$ 的 $i n t e r a c t i o n$ 被考虑了进来。举个例子：流水线个数和员工人数，决定了生产量。现在增加流水线，提升了生产量；但生产量的提升，不仅仅是流水线的功劳，还有员工的功劳，即员工和流水线的相互作用 $i n t e r a c t i o n$ 。
Hierarchical Principle（层次性原则）

若是一个模型中包含了 $i n t e r a c t i o n$ ，那么这个模型也必须包含主要的影响因子 $x_1, ~x_2$ ，即使 $x_1, ~ x_2$ 相关系数的 $p - v a l u e$ 很大。也就是说，当 $x_1, ~x_2$ 的 $i n t e r a c t i o n$ 很重要的时候， $x_1,~x_2$ 造成的影响也没多少人感兴趣了。但是它们得包含在模型中，否则会违背 $x_1,~x_2$ 相关这件事。

移除Linear假设，扩展到Non-linear Relationship

$\beta_0 + \beta_1horsepower + \beta_2horsepower^2 + \epsilon$

上述式子将 $m p g$ 与 $h o r s e p o w e r$ 的关系变为了非线性，可以看出来是一个二次的曲线。但需要注意的是，这仍是一个线性表达式，可以用线性回归的方法求解相关系数。因为改变的只是式子中的 $p r e d i c t o r$ 而已，并不是相关系数。

6. Potential Problems

Non-linearity of the response-predictor relationships

残差 $e_i = y_i - \hat{y_i}$

残差图（ $R e s i d u a l P l o t$ ）最好是橄榄球状，否则说明response和predictors是非线性关系

Correlation of Error Terms

$L i n e a r R e g r e s s i o n M o d e l$ 的 $\epsilon_i, i\in\{1,2,...\}$ 应该是故不相关的。

现有计算 $r e g r e s s i o n c o e f f i c i e n t s$ 的方法都是基于 $\epsilon_i$ 互不相关的假设。即当前数据的 $\epsilon$ 不会影响到下一数据的 $\epsilon$ 。否则当前计算出的 $s t a n d a r d e r r o r$ 将低估了正确的SD，因为没考虑到这种相关性，导致错的离谱。预测的区间和真实的比将会更宽，如 $95\%$ 的置信区间其实并没有0.95这么高
举个例子
- 假设将已有的 $n$ 数据复制了一份，共有 $2 n$ 份数据用于训练模型
- 虽然标准差是 $2 n$ 个样本的，但其实真实有效的数据只有 $n$ 份。两份数据存在了相关性。
- 训练得到的 $c o e f f i c i e n t$ 是针对 $2 n$ 份数据的，导致真实的置信区间缩小了 $\sqrt2$ 倍。
在 $t i m e s e r i e s d a t a （时序序列数据）$ 中经常会出现 $c o r r e l a t i o n$ 的问题。比如说，**邻近时间点采集的数据，都会有相关的 $\epsilon$ 。**如果存在相关性，那么在残差图中就会发现追踪现象，即临近残差将会有相近的值。
$C o r r e l a t i o n$ 对于 $L i n e a r R e g r e s s i o n$ 很重要。若是数据来自同一个家庭，一样的吃饭习惯，都会使得数据存在相关性。若是线性回归中，各个样本之间能够独立，将会有更大的意义。

Non-constant variance of error terms（误差项的不恒定方差）

一般来说，线性回归模型满足该假设

误差项有恒定的方差 $var(\epsilon_i) = \sigma^2$
但如果 $r e s p o n s e$ 的值不断地增加，该方差就会越来越大。当面对这个问题的时候，一个可行的方法就是对 $r e s p o n s e$ 进行 $\sqrt y$ 或者 $l o g Y$ 。

Outliers（离群点）

虽然离群点对于回归线的影响可能不大，但对于 $R S E$ ， $R^2$ 指标都有着极大的影响，这导致对模型的分析出现严重的错误。比如说， $c o n f i d e n c e i n t e r v a l$ ， $p - v a l u e$ 的计算都出现问题。
可以通过

$\frac{e_i}{RSS}$

来计算，如果该值大于3，则该点为离群点

高杠杆点

高杠杆点势必离群点更危险的点，因为它容易带偏回归线。
对于高杠杆点的判断可通过如下公式

$h_i = \frac{1}{n}+\frac{(x_i - \overline{x})}{\sum_{i^{'}}^n(x_{i^{'}} - \overline{x})^2} ~ \in (\frac{1}{n}, 1)$

若是 $(x_i - \overline{x})$ 越大，则 $h_i$ 越大，说明了该点更可能为高杠杆点。通常 $h_i > \frac{P+1}{n}$ 的点都是高杠杆点。

Collinearity（共线性）

两个 $p r e d i c t o r s$ 过于相关了，可以通过 $V I F$ 指标来检测

$VIF(\hat{\beta}_j) = \frac{1}{1-R^2_{X_j|X_{-j}}}$
共线性使得各个变量之间互相关。而 $L i n e a r R e g r e s s i o n$ 假设各个边缘之间独立，否则对预测会造成影响。但在现实生活中，数据间往往存在着相关性，但机器学习侧重于预测的准确率。若准确率很高，则不用过于关注。

7. 几个问题总结

sales和budget之间是否存在关系？

通过多元回归将sale和TV，Radio，Newspaper联系起来
测试 $H_0,\beta_i=0,i\in\{1,2,3,...\}$ 是否成立，使用 $F - s t a t i s t i c$ 作为指标， $p - v a l u e$ 越低，说明存在关系的可能性越大。

Relationship有多强？

$R S E$ 估计了标准误差
$R^2$ 记录了 $R e s p o n s e$ 中可以通过 $P r e d i c t o r$ 解释的变量占比

哪个媒体对sales有贡献？

检查每个 $p r e d i c t o r$ 的 $t - s t a t i s t i c$ 相关的 $p - v a l u e$
$p - v a l u e$ 越低，说明贡献越大

每个媒体在 $s a l e s$ 上的影响有多大？

$\hat{\beta_j}$ 的标准差可用来构建置信区间。若置信区间内不包含 $0$ 且远离 $0$ ，那么说明response和该predictor占一定关系。
此外，共线性会导致标准差变大。故需要检测共线性是某predictor置信区间出现0的原因，通过 $V I F$ 来检测。
若想检验单个变量对sale的影响，可以各自做线性回归。

预测能力有多强？

若使用预测区间

$\epsilon$
若使用置信区间

$Y = f (x)$

预测区间比置信区间更加广阔，因为预测区间加入了不可控变量 $\epsilon$ 。

是否为线性关系？

$r e s i d u a l p l o t$ 可用来检测非线性

广告数据存在协同性吗？

标准的线性回归模型假设 $p r e d i c t o r s$ 和 $r e s p o n s e$ 之间存在加性关系，即各个prediction互相独立。
每个predictor造成的影响不依赖其他的predictors

线性回归与K-NN Regression比较

线性回归是基于 $p a r a m e t r i c$ 类方法，有很好的优点
- 仅需估计有限个 $\beta$
- 可以用统计方法进行分析
但也有缺点
- 有 $F (X)$ 的强假设，若数据和假设无关，造成准确率很低
这时候就需要 $n o n - p a r a m e t r i c$ 的方法了，如 $K N N R e g r e s s i o n$ ，如下

$\hat{f(x_0)} = \frac{1}{K}\sum_{x_i \in N_0} y_i$
- 当K很大时，以 $M S E$ 为衡量指标不会比 $L i n e a r R e g r e s s i o n$ 差多少。但是当 $k$ 很小的时候， $K - N N R e g e r s s i o n$ 就很差了。
- 在现实生活中，当predictors的个数很多的时候，对于 $K N N R e g r e s s i o n$ 就会有维度灾难，其 $M S E$ 很大。故大多是场合还是基于 $L i n e a r R e g r e s s i o n$ 。