多元回归分析（stata)

疯狂成瘾者

已于 2023-09-09 00:57:00 修改

阅读量8.2k

点赞数 6

CC 4.0 BY-SA版权

文章标签：数学建模

于 2023-09-01 15:50:26 首次发布

本文链接：https://blog.csdn.net/qq_65800683/article/details/132624248

本文介绍了如何在数据分析中处理定量和定性数据，包括数据导入、清屏、描述性统计、多元回归模型建立（包括R2、调整R2、显著性检验和多重共线性处理）、异方差检验以及使用Stata进行逐步回归。重点讨论了方差膨胀因子和稳健标准误的应用，以及标准化回归在特定情境下的使用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

导入数据

import excel "D:\my_document\数学建模\清风\清风代码\第7讲.多元回归分析\第7讲.多元回归分析\代码和例题数据\课堂中讲解的奶粉数据.x
 lsx", sheet("Sheet1") firstrow

清屏

cls clear

分为定量数据（summarize）

summarize
有数字

在这里插入图片描述
obs：样本量
mean：均值
std：标准差
最小最大值

定性数据

tabulate 变量名,gen(A)

在这里插入图片描述
Freq:频数
percent：比率
cum：累计频率

在这里插入图片描述

多元回归分析(定量）

regress y x1 x2 … xk
回归只引入定量

在这里插入图片描述

Model:SSR 回归评分和
Residual：SSE 误差平方和
Total：SST
拟合优度：
$R^2$ =SSR/SST
df:自由度

引入调整后 $R^2$ :
在这里插入图片描述

联合显著性检验

在这里插入图片描述
注释：

1.number of obs:观测值的个数n
2.F（2，843）代表联合显著性检验，15.06为检验值,检验值值为F统计量构造出来，F统计量第一个自由度为2，第二个自由度为
843。
即为这两个自由度：
在这里插入图片描述
其对应的p值为0.00。

看清一个假设一定要知道三个东西：
1.构造出来的统计量为什么统计量，（比如这位F统计量）
2.看统计量对应的p值。
3. $H_0$ :联合显著性检验， $\beta_1=\beta_2=\cdots=\beta_k=0$ ,
检验k个自变量前面的回归系数是否都为0，（看p值是否大于0.05），
如果p值大于0.05，则下结论，则我们回归不能拒绝原假设，则认为回归无多大的意义。（即回归自变量系数都为0），即模型设定不合理。

联合显著性通过，即p值是否小于等于0.05，我们拒绝原假设，我们认为回归模型有一定意义。

在这里插入图片描述

显著性

显著性水平是一个事先指定的概率阈值，通常表示为α。常见的显著性水平包括0.05（5%）和0.01（1%），这意味着只有当样本数据产生的结果具有非常低的概率（低于0.05或0.01）时，才会认为结果是显著的。如果计算出的P值小于显著性水平α，则认为结果是显著的，拒绝原假设**；如果P值大于α，则认为结果是不显著的，没有足够的证据来拒绝原假设。

调整后 $R^2$

$R^2$ 和调整后 $R^2$
在论文中我们需要加入调整后 $R^2$ 而不是 $R^2$ ，
加入这句话：在这里插入图片描述
Root MSE：均方误差。

回归系数表以及它们对应的p值

在这里插入图片描述
cons：第一列代表常数项， $\beta_0,\beta_1,\cdots$
$\hat{\beta_0}$ 为26255.38， $\hat{\beta_1}$ 为2410.303（代表商品毛重的系数）。
$\hat{\beta_1}x+\hat{\beta_2}x+\hat{\beta_3}x+\cdots$

std.err:第二列代表回归系数对应的标准误差，（标准误用于计算t值）。
$\frac{-35}{6}\approx-5$

t检验统计量即为回归误除以标准

P值：t检验对应的p值
检验 $\beta_1$ 是否等于0，
因为商品毛重p值大于0.05,所以不用分析它，因为它不显著，
wom只分析回归中显著的量。

置信区间

在这里插入图片描述
95%代表有百分之九十五系数落在这个区间内。

cons第一列是点估计，上图为区间估计。
只有关注第一列和p值。

多元回归分析(定性）（既有虚拟变量）

定性分析（设置虚拟变量）

在这里插入图片描述
代码：

tabulate 配方,gen(A)
tabulate 奶源产地 ,gen(B)
tabulate 国产或进口 ,gen(C)
tabulate 适用年龄岁 ,gen(D)
tabulate 包装单位 ,gen(E)
tabulate 分类 ,gen(F)
tabulate 段位 ,gen(G)

输出结果为：
在这里插入图片描述
表示：G4被忽略了，因为完全多重共线性

为了避免完全多重共线性的影响，引入虚拟变量的个数一般是分类数减1。

在这里插入图片描述

在这里插入图片描述
在百分之九十的置信水平下，有两个自变量对应回归系数是显著的。
（评价量为因变量）。
第一个是团购价元，-29.77274代表在其他条件不变的情况下，团购价格每增加一元，评价量平均减小==-29.77274==。

在这里插入图片描述
F1

在其他条件不变的情况下，分类为牛奶粉比分类为羊奶粉的评价量高出14894.55。

在这里插入图片描述
括号里面为t检验值
*** p<0.01 ** p<0.05 * p<0.1

Stata会自动检测数据的完全多重共线性问题。
在这里插入图片描述
拟合的效果越好

拟合优度

在这里插入图片描述

拟合优度低的原因：

在这里插入图片描述

标准化回归系数

去除量纲
在这里插入图片描述

在这里插入图片描述

运行结果显示：

在这里插入图片描述
绝对值系数进行比较，0.15>0.06,所有团购价才是影响评价量最重要的因素。

对数据进行标准化处理不会影响回归系数的标准误，也不会影响显著性.

常数的均值是其本身，经过标准化后变成了0.

异方差

在这里插入图片描述

解决异方差：

在这里插入图片描述
画图命令：

在这里插入图片描述

rvfplot

横坐标为拟合值，纵坐标为残差的图。

rvpplot

残差和自变量的图

保存图片：

graph export a1.png ,replace

求出一个数的密度取值
在这里插入图片描述

kdensity 评价量

、

在这里插入图片描述

检验多重共线性

###方差膨胀因子

在这里插入图片描述

estat vif

存在多重共线性的处理方法

在这里插入图片描述

不能轻易删除多重共线性，因为可能受到内生性的影响

在这里插入图片描述

逐步回归（用于解决多重共线性的问题）

在这里插入图片描述
向后逐步回归一般要好于向前逐步回归。

stata实现逐步回归

在这里插入图片描述
检验一般使用t检验和F检验。

x1 x2 …xk之间不能有完全多重共线性(和regress不同哦)

在这里插入图片描述
通过regress剔除有完全共线性的变量，再进行逐步回归。

stepwise reg评价量团购价元商品毛重xg A1 A3 B1 B2 B3 B4 B5 B6 B7 B9 c1 D1 D2 D3 D4 E1E2 B3 F1 G1 G2 G3， r pe(0.05)

pe是向前逐步回归.

在这里插入图片描述
生成结果所有自变量显著。

向后逐步回归操作

在这里插入图片描述
注释：
向前逐步回归和向后逐步回归不一定相同。

在这里插入图片描述

国赛的例子

检验多重共线性的代码

在这里插入图片描述

方差膨胀因子

我们看它vif即方差膨胀因子，如果大于10即代表有共线性
在这里插入图片描述

在这里插入图片描述

剔除因子

有共线性我们考虑剔除因子。

检验异方差

在这里插入图片描述
主要关注p值，p值小于等于0.05即存在稳健标准误差，

在这里插入图片描述

稳健标注误

我们使用稳健标注误

代码：
在这里插入图片描述

标准化回归

看哪一个变量对乙醇转化率最大，使用标注化回归

代码：

在这里插入图片描述

多元回归分析（stata)

文章目录

导入数据

清屏

分为定量数据（summarize）

定性数据

多元回归分析(定量）

联合显著性检验

显著性

调整后 R 2 R^2 R2

回归系数表以及它们对应的p值

置信区间

多元回归分析(定性）（既有虚拟变量）

定性分析（设置虚拟变量）

拟合优度

标准化回归系数

异方差

检验多重共线性

存在多重共线性的处理方法

逐步回归（用于解决多重共线性的问题）

stata实现逐步回归

向后逐步回归操作

国赛的例子

检验多重共线性的代码

方差膨胀因子

剔除因子

检验异方差

稳健标注误

标准化回归

调整后 $R^2$