多项logistic回归系数解释_多元回归系数:我们都解释错了?

作者:金钊 (中山大学)E-Mail:  980510243@qq.com

? 连享会主页:lianxh.cn
扫码查看最新推文和分享

a060a284ddbcb13479289c43d186bbbe.png

NEW!连享会·推文专辑:
Stata资源 | 数据处理 | Stata绘图 | Stata程序
结果输出 | 回归分析 | 时间序列 | 面板数据 | 离散数据
交乘调节 | DID | RDD  |  因果推断 |  SFA-TFP-DEA
文本分析+爬虫 | 空间计量 | 学术论文 | 软件工具


目录

  • 1. 引言

  • 2. 多元线性回归系数的常见误解

    • 2.1 多元线性回归计量模型

    • 2.2 多元线性回归系数的图形解释

    • 2.3 多元线性回归系数的代数和矩阵解释

    • 2.4 常见的错误解读

    • 2.5 正确的解释

  • 3. Stata 命令:margins 运用问题

  • 4. 小结

  • 参考文献

  • 附:文中所用代码

    • 精选课程


连享会 - 生存分析 (Survival Analysis) 专题

2020年6月6日 ( ? 热招中……)
主讲嘉宾:王存同教授 (中央财经大学)
课程详情;课程主页:https://gitee.com/arlionn/st

d351fec73bebf638451577acdb356d1c.png
连享会-生存分析专题直播

温馨提示: 文中链接在微信中无法生效。请点击底部

编者按: 在 Stata Journal (各期 SJ) 2016 年第 1 期中连续登载了 4 篇「吵架」论文。其中,首篇为 David Hoaglin 撰写的长文 (p.5-22),题为「Regressions are Commonly Misinterpreted」。从标题上来看,这无异于「挑战」我们的常识。三位知名的计量经济学家 (James Hardin, Scott Long, David Drukker) 撰写了两篇短文对此进行评论/批评。而同期第四篇论文刊登的就是 David Hoaglin 的「反驳 (Rejoinder)」。显然,这四篇文章是 Stata Journal 的编辑们蓄意之作,同时,也凸显出此问题的重要性。本文对其中的一些核心观点进行梳理,感兴趣的读者可以阅读原文以便品尝原味红茶。

  • Hoaglin David C., 2016, Regressions are Commonly Misinterpreted, Stata Journal, 16(1): 5–22. [PDF]
  • Hardin James W. , 2016, Regressions are Commonly Misinterpreted: Comments on the Article, Stata Journal, 16(1): 23–24. [PDF]
  • Long J. Scott, David M. Drukker, 2016, Regressions are Commonly Misinterpreted: Comments on the Article, Stata Journal, 16(1): 25–29. [PDF]
  • Hoaglin David C., 2016, Regressions are Commonly Misinterpreted: A Rejoinder, Stata Journal, 16(1): 30–36. [PDF]

同主题阅读:

  • 连享会 - 回归分析专题, 微信版
  • 图示线性回归系数:Frisch-Waugh定理与部分回归图
  • 多元回归系数:我们都解释错了?
  • 加入控制变量后结果悲催了!
  • 如何比较解释变量的系数相对大小?
  • R2分解:相对重要性分析 (Dominance Analysis)
  • 残差是个宝:盈余管理、过度投资、超额收益怎么算?

温馨提示: 文中链接在微信中无法生效。请点击底部


1. 引言

多元回归模型一直被广泛运用,也是最常见和最基础的计量模型。多元回归模型中各个变量间关系相对复杂,其回归系数惯常解释为:

「当其他变量保持不变或控制其他变量不变时, 每改变一个单位时因变量 的平均变化量」。

然而,Hoaglin (2016) 指出,这种常见的解读存在错误。这些问题常常出现在 OLS 回归、logistic 回归和其他广义线性模型以及生存分析、纵向分析和层次分析回归中。

Hoaglin (2016) 认为,这些解释既没有体现多元回归的基本原理,也不符合现实情况。他从图形、多元正态分布和最小二乘几何特征等角度解释「控制」和「保持不变」的不适性。为此,他们提出一直全新的解释「调整 和其他预测因子对 的共同线性影响后, 每改变一个单位时因变量 的平均变化量」。

2. 多元线性回归系数的常见误解

2.1 多元线性回归计量模型

我们常见的多元回归的总体 (population) 模型为:

其中, 为解释变量或预测因子; 为被解释变量或响应变量。我们通常令第一个解释变量为单位向量,即 。 为待估参数,称为「回归系数」(regression coefficients)。

在多元回归中,预测因子间不可能是完全独立的,每个回归系数的下标应该包含方程中的其他预测因子。为此,预测因子 的回归系数可以写为:,第一个下标表示响应变量,第二个下标表示系数所附的预测因子,而在「·」之后的下标表示其他预测因子。则回归模型可以变为:

运用数据可以对回归系数 进行估计,可以得到估计值 。则 (2) 的拟合方程为:

为残差, 为 的观测值。在多元回归中,每个预测因子的系数都说明了其他预测因子的贡献,也就是说,它反映了对这些预测因子的调整。

2.2 多元线性回归系数的图形解释

我们运用 Stata 自带的 1978 汽车数据集 auto.dta 中的进口汽车 (foreign) 数据来解释多元回归系数估计值的含义。

首先,我们把汽车的百英里油耗 (100/mpg) 当作被响应变量,汽车的重量 (weight) 和排量 (displacement) 为预测因子。通过散点图 (图 1),我们可以看到汽车油耗与重量和排量的相关性很高,汽车的重量和排量的相关性也很强。

. sysuse auto, clear
(1978 Automobile Data)

. generate gp100m = 100/mpg

. label var gp100m "Gallons per 100 miles"

*-相关系数
. pwcorr gp100m weight displacement if foreign==1

| gp100m weight displa~t
-------------+---------------------------
gp100m | 1.0000
weight | 0.8172 1.0000
displacement | 0.8444 0.9507 1.0000

*-散点图矩阵
. graph matrix gp100m weight displacement if foreign==1

8eb0b1e6e03fe23b9ac1f352ee1def29.png

图 1 汽车油耗、重量和排量的散点图矩阵

首先,我们看二元回归的估计结果如下,可以发现汽车重量回归系数的估计值为 0.396,而汽车排量回归系数的估计值为 0.032。

. regress gp100m weight displacement if foreign == 1

Source | SS df MS Number of obs = 22
----------+------------------------------ F(2, 19) = 23.86
Model | 19.6704568 2 9.83522842 Prob > F = 0.0000
Residual | 7.83165119 19 .412192168 R-squared = 0.7152
----------
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值