Stata 回归结果详解

带头大哥

已于 2023-09-21 15:11:48 修改

阅读量5.3w

点赞数 135

分类专栏： stata 文章标签：回归数据挖掘人工智能 stata 经济学

于 2023-04-06 14:42:10 首次发布

本文链接：https://blog.csdn.net/raphero/article/details/129978291

版权

stata 专栏收录该内容

1 篇文章

订阅专栏

文章详细介绍了线性回归分析中的关键指标，包括模型平方和(SSM)、残差平方和(SSR)、总平方和(SST)、R-squared和调整后的R-squared等，以及它们在衡量模型拟合度和误差方面的作用。此外，还解释了自由度(df)、均方差(MS)、F值和P值在统计显著性检验中的意义，帮助理解Stata软件中的回归分析结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、数据信息

使用stata自带的auto数据，
被解释变量（因变量）：price（价格）
解释变量（自变量）：mpg（里程）、rep78（1978年后的修理记录）、weight（重量）、length（长度）、foreign（本土/国外品牌）
在这里插入图片描述
回归结果分两部分，上半部分为回归结果的总体描述信息，下半部分为具体变量信息。

二、指标

1.上半部分

指标	英文	名称	解释
SS	sum of squares	平方和
df	degrees of freedom	自由度
MS	mean square	均方差
Model(SSM)	sum of squares model	模型平方和	衡量预测值的离散程度
Residual(SSR)	sum of squares residual	残差平方和	衡量预测值与真实值的偏差程度
Total(SST)	sum of squares total	总平方和	衡量真实数据的离散程度
Number of obs		观测值数量	观测值数量
F(a,b)		F值	检验系数不为0的概率
Prob > F		P值	1%、5%、10%水平上显著
R-squared		拟合系数	表示模型的拟合程度
Adj R-squared		调整后的拟合系数	更精确的表示模型的拟合程度
Root MSE	Root Mean square of error	均误差平方根	衡量模型中的误差项的大小

2.下半部分

指标	英文名	中文名	解释
Coefficient		系数	β
Std. err.	The standard error of the coefficient	回归系数标准误	估计系数的波动水平
t		t值	检验系数不为0的概率
p > [t]		P值	1%、5%、10%水平上显著
[95% conf. interval]	confidence interval	置信区间	回归系数取值范围，该范围有效率是95%

三、详细解释

在这里插入图片描述

SSM - 模型平方和

每一个预测值与平均值之间距离的平方之和
在这里插入图片描述
SSM越大越好

SSR - 残差平方和

每一个真实值与预测值之间距离的平方之和，即误差项的平方和
在这里插入图片描述
SSR越小越好

SST - 总平方和

每一个真实值与平均值之间距离的平方之和，用于衡量真实值的离散程度
在这里插入图片描述
SST = SSM + SSR ，即【总平方和=模型平方和+残差平方和】

R-squared - R方 - 拟合系数

拟合系数表示模型能解释的数据波动占总体波动的百分比，表示拟合程度
R方越高，表示模型的拟合程度越高，回归预测越准确
R方的值在0到1之间，具体的大小并无要求，需要根据不同的领域具体判断，在某些领域，10%-30%是合理的；而在某些领域甚至达到50%才是合理。
在这里插入图片描述

Adj R-squared - 调整后的拟合系数

R-squared无法控制变量的增加而导致过度拟合，Adj R-squared则在此基础上，引入了自变量的个数这一因素，以更加准确地评估模型的拟合效果。
在多元线性回归模型中，当自变量的数量增加时，R-squared也会随之增加。但是，当自变量的数量增加时，也容易出现过拟合（overfitting）现象，导致模型的预测能力下降。因此，为了避免过拟合，我们需要使用Adj R-squared对R-squared进行修正。Adj R-squared可以更精确地反映自变量对因变量的解释程度，避免了因自变量数量增加而导致的过拟合问题，是多元线性回归模型中一个比较重要的评估指标。

df - 自由度

自由度是表示能够自由变动的变量的个数

例如：有3个变量a、b、c，加入限制条件 a + b + c = 100，则a和b任意取一个值后，c无法自由取值，即df=2。
在本文章的数据中，观测值 n= 69，自由度 df = 69 - 1 = 68

本章数据中，假设观测值个数为n，自变量个数为k，则：
df_Total = n - 1
df_Model = k (不是k-1，因为模型中有常数项β0，所以模型的自由度就是自变量个数)
df_Residual = n - k -1 = 69 - 5 - 1 = 63

MS - 均方差

MS = SS / df

简单理解就是平方和的平均数

F - 总体显著性检验

F = MS_Model / MS_Residual

原假设H0：所有系数β均为0
备择假设H1：系数β不全为0

F值越大越好

Prob > F - P值

P值表示在在原假设成立的情况下，能够得到F值的概率，通常有模型在1%、5%、10%水平下拒绝原假设，从而认为自变量对因变量影响的显著水平，也可以说模型在1%、5%、10%水平上显著。
P值由F值查表得出

P值指的是假设检验中得到的显著性水平，其英文单词为"p-value"。其中，p表示概率(probability)，value则代表一个数值，即显著性水平。
P值表示在在原假设成立的情况下，能够得到F值的概率，通常有模型在1%、5%、10%水平下拒绝原假设，从而认为自变量对因变量影响的显著水平，也可以说模型在1%、5%、10%水平上显著。
当 P < 0.1 时，模型在10%水平上显著。
当 P < 0.05 时，模型在5%水平上显著。
当 P < 0.01 时，模型在1%水平上显著。

P值越小越好

Root MSE

衡量模型中的误差项的大小，Root MSE越大，误差越大
在这里插入图片描述
Root MSE越小越好

Coef.

回归系数，其中_cons表示常数项

例：连续变量和0-1变量的解释不用，本文数据中：
车辆重量weight为连续变量，weight每增加一千克，价格price将增加6.006738美元。
是否为外国车辆foreign为0-1变量，当foreigh=1时，价格price将增加3303.213美元。

Std. Err.

衡量估计系数的波动水平

t

t = Coef. / Std. Err.

t检验中的字母t来源于英文单词"t-distribution"，也就是t分布。T分布是一种概率分布函数，是一类常用于小样本假设检验的概率分布。T分布的形态与自由度有关，当自由度越大时，T分布越趋近于标准正态分布。在t检验中，t值的计算需要用到样本均值、标准差和样本量，然后再根据自由度和置信水平查找t分布表，得到检验的p值，以此来判断是否拒绝零假设。

越大越好