方差残差离差

最新推荐文章于 2021-01-17 12:36:11 发布

Harrytsz

最新推荐文章于 2021-01-17 12:36:11 发布

阅读量5.7k

点赞数 3

分类专栏：数据分析

本文链接：https://blog.csdn.net/harrytsz/article/details/83185291

版权

11 篇文章 3 订阅

订阅专栏

标签（空格分隔）：统计学概念

1.总平方和 $(S S T)$ 、回归平方和 $(S S R)$ 与残差平方和 $(S S T)$

得到 $\hat{\beta}$ 后，可以把 $Y$ 分解为可以被解释变量解释的 $\hat{Y}$ 和不能被解释的 $\hat{u}$ 两部分：
$\hat{\beta} + \hat{u} = \hat{Y} + \hat{u}$

定义总平方和（原始值-平均值）:

$\sum_{t=1}^{T}(y_{t} - \bar{y})^{2} = \sum_{t=1}^{T}y_{t}^{2} - 2\bar{y}\sum_{t=1}^{T}y_{t} + T\bar{y}^{2}$

其中 $\bar{y}$ 是 $y_{t}$ 的样本平均数，定义为 $\bar{y} = \frac{1}{T}(\sum_{t=1}^{T}y_{t})$ 。

定义回归平方和为（回归值-均值）:
$\sum_{t=1}^{T}(\hat{y_{t}} - \bar{y})^{2} = \hat{Y}·\hat{Y} - T\bar{y}^{2}$

其中 $\bar{y}$ 的定义同上。

定义残差平方和为（原始值-回归值）
$\sum_{t=1}^{T}(y_{t} - \hat{y_{t}})^{2} = \sum_{t=1}^{T}\hat{u_{t}}^{2} = \hat{u}·\hat{u}$

三者之间的关系如下:
$S S T = S S R + S S E$

证明：

$(X\hat{\beta} + \hat{u})(X\hat{\beta} + \hat{u}) = \hat{\beta}XX\hat{\beta} + \hat{u}\hat{u} + 2\hat{\beta}X\hat{u}$

由 $X\hat{u} = 0$ 。代入上式得：
$\hat{\beta}XX\hat{\beta} + \hat{u}\hat{u}$

从上式两侧同减 $T\bar{y}^{2}$ ，得：
$S S T = S S R + S S E$

$S S E$ (和方差、误差平方和)：The sum of squares due to error

$M S E$ (均方差、方差)： Mean squared error

$R M S E$ (均方根、标准差)：Root mean squared error

$R - s q u a r e$ (确定系数)：Coefficient of determination

$A d j u s t e d R - s q u a r e$ ： Degree-of-freedom adjusted coefficient of determination

下面对以上几个名词进行详细的解释：

（1） $S S E$ （和方差、残差）：
该统计参数计算的是拟合数据和原始数据对应点的误差的平方和，计算公式如下：
$\sum_{i=1}^{n}w_{i}(y_{i}-\hat{y_{i}})^{2}$
SSE 越接近于 0 ,说明模型选择和拟合更好，数据预测也越成功。

（2） $M S E$ （均方差）：
该统计参数是预测数据和原始数据对应点误差的平方和的均值，也就是 $S S E / n$ ，和 $S S E$ 没有太大的区别，计算公式如下：
$\frac{1}{n}\sum_{i=1}^{n}w_{i}(y_{i} - \hat{y_{i}})^{2}$

(3) $R M S E$ (均方根)：
该统计参数，也叫作回归系统的拟合标准差，是MSE 的平方根，计算公式如下：

注：在这之前，所有的误差参数都是基于预测值（ $\hat{y}$ ）和原始值（ $y$ ）之间的误差（即点对点）。从下面开始是所有的误差都是相对于原始数据平均值（\bar{y}）而展开的（即点对全）。

(4) $R - s q u a r e (确定系统)$ ：
在解释确定系统之前，先来介绍另外两个参数 $S S R$ 和 $S S T$ ，因为确定系数就是由它们两个决定的。

$S S R :$ (Sum of Squares of the Regression)即预测数据与原始数据均值之差的平方和，定义公式如下：
$\sum_{i=1}^{n}w_{i}(\hat{y_{i}} - \bar{y_{i}})^{2}$
$S S T :$ (Total Sum of Squares)即原始数据和均值之差的平方和，定义公式如下：
$\sum_{i=1}^{n}w_{i}(y_{i} - \bar{y_{i}})^{2}$

细心的网友会发现， $S S T = S S E + S S R$ ，确定系数定义为 $S S R$ 和 $S S T$ 的比值，故：
$\frac{SSR}{SST} = \frac{SST - SSE}{SST} = 1 - \frac{SSE}{SST}$

其实“确定系数”是通过数据的变化来表征一个拟合的好坏。由上面的表达式可以知道“确定系数”的正常取值范围为[0,1]，越接近1，表明方程的变量对 y 的解释能力越强，这个模型对数据拟合的也较好。

关注