方差 残差 离差

方差 残差 离差

标签(空格分隔): 统计学概念


1.总平方和 ( S S T ) (SST) (SST)、回归平方和 ( S S R ) (SSR) (SSR) 与残差平方和 ( S S T ) (SST) (SST)

得到 β ^ \hat{\beta} β^ 后,可以把 Y Y Y 分解为可以被解释变量解释的 Y ^ \hat{Y} Y^ 和不能被解释的 u ^ \hat{u} u^ 两部分:
Y = X β ^ + u ^ = Y ^ + u ^ Y = X \hat{\beta} + \hat{u} = \hat{Y} + \hat{u} Y=Xβ^+u^=Y^+u^

定义总平方和(原始值-平均值):

S S T = ∑ t = 1 T ( y t − y ˉ ) 2 = ∑ t = 1 T y t 2 − 2 y ˉ ∑ t = 1 T y t + T y ˉ 2 SST = \sum_{t=1}^{T}(y_{t} - \bar{y})^{2} = \sum_{t=1}^{T}y_{t}^{2} - 2\bar{y}\sum_{t=1}^{T}y_{t} + T\bar{y}^{2} SST=t=1T(ytyˉ)2=t=1Tyt22yˉt=1Tyt+Tyˉ2

其中 y ˉ \bar{y} yˉ y t y_{t} yt 的样本平均数,定义为 y ˉ = 1 T ( ∑ t = 1 T y t ) \bar{y} = \frac{1}{T}(\sum_{t=1}^{T}y_{t}) yˉ=T1(t=1Tyt)

定义回归平方和为(回归值-均值):
S S R = ∑ t = 1 T ( y t ^ − y ˉ ) 2 = Y ^ ⋅ Y ^ − T y ˉ 2 SSR = \sum_{t=1}^{T}(\hat{y_{t}} - \bar{y})^{2} = \hat{Y}·\hat{Y} - T\bar{y}^{2} SSR=t=1T(yt^yˉ)2=Y^Y^Tyˉ2

其中 y ˉ \bar{y} yˉ 的定义同上。

定义残差平方和为(原始值-回归值)
S S E = ∑ t = 1 T ( y t − y t ^ ) 2 = ∑ t = 1 T u t ^ 2 = u ^ ⋅ u ^ SSE = \sum_{t=1}^{T}(y_{t} - \hat{y_{t}})^{2} = \sum_{t=1}^{T}\hat{u_{t}}^{2} = \hat{u}·\hat{u} SSE=t=1T(ytyt^)2=t=1Tut^2=u^u^

三者之间的关系如下:
S S T = S S R + S S E SST = SSR + SSE SST=SSR+SSE

证明:

Y ⋅ Y = ( X β ^ + u ^ ) ( X β ^ + u ^ ) = β ^ X X β ^ + u ^ u ^ + 2 β ^ X u ^ Y·Y = (X\hat{\beta} + \hat{u})(X\hat{\beta} + \hat{u}) = \hat{\beta}XX\hat{\beta} + \hat{u}\hat{u} + 2\hat{\beta}X\hat{u} YY=(Xβ^+u^)(Xβ^+u^)=β^XXβ^+u^u^+2β^Xu^

X u ^ = 0 X\hat{u} = 0 Xu^=0 。代入上式得:
Y Y = β ^ X X β ^ + u ^ u ^ YY = \hat{\beta}XX\hat{\beta} + \hat{u}\hat{u} YY=β^XXβ^+u^u^

从上式两侧同减 T y ˉ 2 T\bar{y}^{2} Tyˉ2 ,得:
S S T = S S R + S S E SST = SSR + SSE SST=SSR+SSE

S S E SSE SSE(和方差、误差平方和):The sum of squares due to error

M S E MSE MSE(均方差、方差): Mean squared error

R M S E RMSE RMSE(均方根、标准差):Root mean squared error

R − s q u a r e R-square Rsquare(确定系数):Coefficient of determination

A d j u s t e d R − s q u a r e Adjusted R-square AdjustedRsquare Degree-of-freedom adjusted coefficient of determination

下面对以上几个名词进行详细的解释:

(1) S S E SSE SSE(和方差、残差):
该统计参数计算的是拟合数据和原始数据对应点的误差的平方和,计算公式如下:
S S E = ∑ i = 1 n w i ( y i − y i ^ ) 2 SSE = \sum_{i=1}^{n}w_{i}(y_{i}-\hat{y_{i}})^{2} SSE=i=1nwi(yiyi^)2
SSE 越接近于 0 ,说明模型选择和拟合更好,数据预测也越成功。

(2) M S E MSE MSE(均方差):
该统计参数是预测数据和原始数据对应点误差的平方和的均值,也就是 S S E / n SSE/n SSE/n ,和 S S E SSE SSE 没有太大的区别,计算公式如下:
M S E = S S E / n = 1 n ∑ i = 1 n w i ( y i − y i ^ ) 2 MSE = SSE/n = \frac{1}{n}\sum_{i=1}^{n}w_{i}(y_{i} - \hat{y_{i}})^{2} MSE=SSE/n=n1i=1nwi(yiyi^)2

(3) R M S E RMSE RMSE(均方根):
该统计参数,也叫作回归系统的拟合标准差,是MSE 的平方根,计算公式如下:

注:在这之前,所有的误差参数都是基于预测值( y ^ \hat{y} y^)和原始值( y y y)之间的误差(即点对点)。从下面开始是所有的误差都是相对于原始数据平均值(\bar{y}) 而展开的(即点对全)。

(4) R − s q u a r e ( 确 定 系 统 ) R-square(确定系统) Rsquare()
在解释确定系统之前,先来介绍另外两个参数 S S R SSR SSR S S T SST SST ,因为确定系数就是由它们两个决定的。

  • S S R : SSR: SSR:(Sum of Squares of the Regression)即预测数据与原始数据均值之差的平方和,定义公式如下:
    S S R = ∑ i = 1 n w i ( y i ^ − y i ˉ ) 2 SSR = \sum_{i=1}^{n}w_{i}(\hat{y_{i}} - \bar{y_{i}})^{2} SSR=i=1nwi(yi^yiˉ)2
  • S S T : SST: SST:(Total Sum of Squares)即原始数据和均值之差的平方和,定义公式如下:
    S S T = ∑ i = 1 n w i ( y i − y i ˉ ) 2 SST = \sum_{i=1}^{n}w_{i}(y_{i} - \bar{y_{i}})^{2} SST=i=1nwi(yiyiˉ)2

细心的网友会发现, S S T = S S E + S S R SST = SSE + SSR SST=SSE+SSR,确定系数定义为 S S R SSR SSR S S T SST SST 的比值,故:
R − s q u a r e = S S R S S T = S S T − S S E S S T = 1 − S S E S S T R-square = \frac{SSR}{SST} = \frac{SST - SSE}{SST} = 1 - \frac{SSE}{SST} Rsquare=SSTSSR=SSTSSTSSE=1SSTSSE

其实“确定系数”是通过数据的变化来表征一个拟合的好坏。由上面的表达式可以知道“确定系数”的正常取值范围为[0,1],越接近1,表明方程的变量对 y 的解释能力越强,这个模型对数据拟合的也较好。

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值