回归分析-常用统计量含义解析

线性回归模型预测好坏,评判标准主要观察回归直线与各观测点的接近程度(即直线的拟合优度)。但是如何量化它们之间的接近程度呢?可使用以下常用统计量进行衡量。各统计量分解如下:

  • SST总平方和                 \large SST=\sum \left (y_{i} -\bar{y}\right )^{2}
  • SSR回归平方和             \large SSR=\sum \left (\widehat{y}_{i} -\bar{y}\right )^{2}
  • SSE残差平方和             \large SSE=\sum \left (y_{i} -\widehat{y}_{i}\right )^{2}

回归平方和是回归值与均值的离差平方和,可以看做由于自变量\large x的变化引起的\large y的变化(即\large y\large x的影响);

残差平方和(或称误差平方和)是真实值与回归值的离差平方和,它是除了\large x\large y的线性影响之外的其他因素引起的\large y的变化部分,是不能由回归直线来解释的\large y_{i}的变差部分(即\large y受其他因素的影响,如\large x\large y的非线性影响、测量误差等)。残差平方和描述了真实值与预测值之间的差异程度

三个平方和的关系为:

总平方和(SST)= 回归平方和(SSR)+ 残差平方和(SSE)

 

  • 判定系数   \large R^{2}=\frac{SSR}{SST}=\frac{\sum \left (\widehat{y}_{i} -\bar{y}\right )^{2}}{\sum \left (y_{i} -\bar{y}\right )^{2}} = 1-\frac{\sum \left (y_{i} -\widehat{y}_{i}\right )^{2}}{\sum \left (y_{i} -\bar{y}\right )^{2}}

判定系数\large R^{2}是对估计的回归方程拟合优度的度量。(即测度了回归直线对观测数据的拟合程度)

  1. 若所有观测点都落在回归直线上,残差平方和SSE=0,则\large R^{2}=1,拟合是完全的;
  2. 如果\large y的变化与\large x无关,\large x完全无助于解释\large y的变差,\large \widehat{y}=\bar{y},则\large R^{2}=0;
  3. \large R^{2}的取值范围是[0, 1];
  4. \large R^{2}越接近1,表明回归平方和占总平方和的比例越大,回归直线与各观测点越接近,用\large x的变化来解释\large y值变差的部分就越多,回归直线的拟合程度就越好;反之,\large R^{2}越接近0,回归直线的拟合程度就越差。

例子解释其含义:

下图为不良贷款Y对贷款余额X构建的一元线性回归模型的回归分析结果,数据源可查看https://blog.csdn.net/qq_39284106/article/details/104156844

Q:计算不良贷款\large y对贷款余额\large x回归的判定系数,并解释其意义?

A1:\large R^{2} = \frac{SSR}{SST} = \frac{222.4860}{312.6504}=0.7116

A2:判定系数的实际意义是:在不良贷款取值的变差中,有71.16%可以由不良贷款与贷款余额之间的线性关系来解释,或者说,在不良贷款取值的变动中,有71.16%是由贷款余额所决定的。不良贷款取值的差异有2/3以上是由贷款余额决定的,可见二者之间有较强的线性关系。

 

  • 调整的判定系数Adjusted_R_square   \large R_{a}^{2} = 1-(1-R^{2})(\frac{n-1}{n-k-1})

调整的判定系数是用样本量\large n和自变量的个数\large k去调整\large R^{2}的,其实际意义是在用样本量和模型中自变量个数进行调整后,能被因变量和自变量的一元或是多元回归方程所解释的比例为\large R_{a}^{2}

有了判定系数,为什么还需要调整的判定系数呢?

:是因为自变量个数的增加将影响到因变量的变差中被估计的回归方程所解释的比例。当增加自变量时,会使预测误差变得较小,从而减少残差平方和SSE。由于回归平方和 SSR=SST - SSE,当SSE变小时,SSR就会变大,从而使\large R^{2}变大。如果模型中增加一个自变量,即使这个自变量在统计上并不显著,\large R^{2}也会变大。因此避免增加自变量而高估\large R^{2},需要同时考虑样本量和模型中自变量的个数的影响,这就使得\large R_{a}^{2}的值永远小于\large R^{2},而且\large R_{a}^{2}的值不会由于模型中的自变量个数增加而越来越接近1。因此在多元回归分析中,通常用调整的判定系数。

Q:计算不良贷款\large y对贷款余额\large x回归的调整的判定系数,并解释其意义?

A1:\large R_{a}^{2} = 1-(1-0.7116)(\frac{25-1}{25-1-1})=0.6991

A2:它表示:在用样本量和模型中自变量个数进行调整后,在不良贷款取值的变差中,能被不良贷款和贷款余额的回归方程所解释的比例为69.91%。

 

  • 复相关系数Multiple_R      \large MultipleR = \sqrt{R^{2}}

复相关系数度量了因变量同\large k个自变量的相关程度。

 

  • 估计标准误差    \large s_{e}=\sqrt{\frac{\sum \left (y_{i} -\widehat{y}_{i}\right )^{2}}{n-k-1}} = \sqrt{\frac{SSE}{n-k-1}}=\sqrt{MSE}

估计标准误差就是度量各个实际观测点在直线周围的散布状况的一个统计量。

估计标准误差是对误差项\large \varepsilon的标准差\large \sigma的估计,它可以看做在排除了\large x\large y的线性影响后,\large y随机波动大小的一个估计量。

  1. 从估计标准误差的实际意义看,它反映了用估计的回归方程预测因变量\large y预测误差的大小
  2. 各观测点越靠近直线,\large s_{e}越小,回归直线对各观测点的代表性就越好,根据估计的回归方程进行预测也就越准确。
  3. 若各观测点全部落在直线上,则\large s_{e}=0,此时用自变量来预测因变量是没有误差的。
  4. 因此,\large s_{e}从另一角度说明了回归直线的拟合优度。

Q:计算不良贷款\large y对贷款余额\large x回归的估计标准误差,并解释其意义?

A1:\large s_{e} = \sqrt{\frac{SSE}{n-2}}=\sqrt{\frac{90.1644}{25-2}}=1.9799(亿元)

A2:标准误差为1.9799,这就是说,根据贷款余额来估计不良贷款时,平均的估计误差为1.9799亿元。

 


得到估计回归方程后,是不是就能直接用来做预测了呢?还不能哦,因为该估计方程是根据样本数据得出的,它是否真实地反映了变量\large x\large y之间的关系,需要通过检验来证实。那目前常用的检验方法有哪些?

回归分析中的显著性检验主要包括两个方面:线性关系的检验回归系数的检验

线性关系的检验是检验因变量\large y\large k个自变量之间的关系是否显著,也称为总体显著性检验。

为检验自变量和因变量之间的线性关系是否显著,需要构造用于检验的统计量F。

  • MSR均方回归               \large MSR=\frac{SSR}{k}
  • MSE均方残差               \large MSE=\frac{SSE}{n-k-1}
  • F检验统计量     \large F = \frac{SSR/k}{SSE/\left ( n-k-1 \right )} = \frac{MSR}{MSE} \sim F\left ( k, n-k-1 \right )

如果原假设成立,则比值MSR/MSE的抽样分布服从分子自由度为\large k、分母自由度为\large n-k-1的F分布。

  • 原假设:beta=0 (变量之间的线性关系不显著)
  • 备择假设:beta!=0  至少有一个不等于0(变量之间的线性关系显著)
  1. 当原假设成立时,MSR/MSE的值应接近1;
  2. 当原假设不成立时,MSR/MSE的值将变得无穷大;

线性关系检验主要是检验因变量与多个自变量的线性关系是否显著, 在\large k个自变量中,只要有一个自变量与因变量的线性关系显著,F检验就能通过,但这不一定意味着每个自变量与因变量的关系都显著。

Q:检验不良贷款\large y和贷款余额\large x之间线性关系的显著性(\large \alpha =0.05)?

A1:提出假设 \large H_{0}: \beta _{1} =0 (两个变量之间的线性关系不显著)

A2:\large F = \frac{MSR}{MSE} = \frac{222.486}{3.921}=56.7538

A3:查F分布表,得临界值\large F_{\alpha } = 4.28。由于\large F > F_{\alpha }, 拒绝原假设 \large H_{0},表明不良贷款和贷款余额之间的线性关系是显著的。

A4:用于F检验的P值\large pf(Significance F) < \alpha =0.05,拒绝原假设 \large H_{0},表明因变量和自变量之间有显著的线性关系。【备注:pf(Significance F)取值可看上图回归分析结果的pf取值。】

 

回归系数的检验是检验自变量对因变量的影响是否显著。

  • 各回归系数的t检验统计量    \large t_{k} = \frac{\widehat{\beta }_{k}}{Se(\widehat{\beta _{k}})} \sim t(n-k-1)

回归系数检验是对每个回归系数分别进行单独检验,它主要用于检验每个自变量对因变量的影响是否显著。如果某个自变量没有通过检验,就意味着这个自变量对因变量的影响不显著,也许就没有必要将这个自变量放进回归模型中。

Q:检验回归系数的显著性(\large \alpha =0.05)?

A1:提出假设 \large H_{0}: \beta _{1} =0 (无显著关系); \large H_{1}:\beta _{1}\neq 0(有显著关系);

A2:\large t= \frac{\widehat{\beta _{1}}}{s\widehat{\beta _{1}}} = \frac{0.0379}{0.005}=7.534

A3:查t分布表,得临界值\large t_{\alpha/2 } = 2.0687。由于\large |t| > t_{\alpha /2}, 拒绝原假设 \large H_{0},这意味着贷款余额是影响不良贷款的一个显著因素。

A4:用于t检验的P值P-value\large =0.000 < \alpha =0.05,拒绝原假设 \large H_{0},表明因变量和自变量之间有显著的线性关系。【备注:P-value取值可看上图回归分析结果的变量C对应P-value的取值。】

注意:F检验只是用来检验总体回归关系的显著性,而t检验则是检验各个回归系数的显著性。


AIC准则即Akaike information criterion,又叫赤池准则,为日本统计学家赤池弘次创立,它建立在熵的概念基础上,可以权衡所估计模型的复杂度和此模型拟合数据的优良性。

AIC计算公式为: AIC=2k-2logLik,其中:k是参数的数量,logLik是对数似然比。

BIC准则即Bayesian Information Criterions,于1978年由Schwarz提出。BIC的惩罚项比AIC大,考虑了样本数量,样本数量过多时,可有效防止模型精度过高造成的模型复杂度过高。

BIC计算公式为: BIC=-2logLik +kln(n)。

AIC或BIC的取值是越小越好。

 

  • 10
    点赞
  • 68
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
对于OLS回归模型的初学者,以下是一些学习介绍的主要内容: 1. OLS回归模型:OLS回归模型是最常用的线性回归模型之一。它基于最小二乘法,通过拟合一个线性方程来建立自变和因变之间的关系。 2. 模型参数:通过使用OLS模型对象的`model.params`属性,可以提取回归模型的系数,即自变的权重。这些参数表示自变对因变的影响程度。 3. 模型拟合:使用OLS模型对象的`.fit()`方法对数据进行回归拟合。该方法对输入的自变和因变执行线性回归计算,并返回一个`RegressionResultsWrapper`对象,包含了拟合结果的摘要。 4. 拟合结果摘要:通过调用拟合结果对象的不同属性,可以获取模型的各种统计信息。例如,`model.bse`提供了回归系数的标准误差,`model.pvalues`提供了回归系数的p值,`model.tvalues`提供了回归系数的t值等等。 5. 模型预测:使用拟合结果对象的`model.fittedvalues`属性,可以获取模型对样本数据的预测值。这些预测值表示模型对未知样本的预测结果。 6. 残差分析:通过使用拟合结果对象的`model.resid`属性,可以获取模型的残差。残差是实际观测值与模型预测值之间的差异,用于评估模型的拟合效果。 7. 模型评估:可以使用拟合结果对象的其他属性和方法来评估模型的好坏。例如,可以使用`model.summary()`方法来获取模型的详细摘要,包括R-squared值、调整R-squared值、F统计等等。 要开始学习OLS回归模型,可以使用Python中的`statsmodels`库。通过创建一个OLS模型对象,并使用适当的自变和因变数据进行拟合,可以开始研究和分析回归模型的结果。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [OLS回归分析原理实战及结果解析-python3](https://blog.csdn.net/qq_30868737/article/details/109164548)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [Python Statsmodels 统计包之 OLS 回归](https://blog.csdn.net/weixin_39826089/article/details/111558740)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值