NEW!连享会·推文专辑:
Stata资源 | 数据处理 | Stata绘图 | Stata程序
结果输出 | 回归分析 | 时间序列 | 面板数据 | 离散数据
交乘调节 | DID | RDD | 因果推断 | SFA-TFP-DEA
文本分析+爬虫 | 空间计量 | 学术论文 | 软件工具
连享会学习群-常见问题解答汇总:
? WD 主页:https://gitee.com/arlionn/WD
? 连享会主页:lianxh.cn
连享会 · 名师讲坛
? 空间计量 专题
⌚ 2020.12.10-13? 主讲:杨海生 (中山大学);范巧 (兰州大学)
? 课程主页:https://gitee.com/arlionn/SP
连享会 · 计量专题
? Stata 数据清洗实战系列(第二季)
⌚ 2020.11.28,19:00-21:00,88 元
? 课程主页:https://gitee.com/arlionn/dataclean
谢雁翔 (南开大学),xyxmask1995@163.com
钟舜斌 (北京工商大学),1315829300@qq.com
编者按: 本文部分参考了游万海老师的分位数回归讲义和陈强老师的《高级计量经济学及Stata应用》,特此致谢!
目录
1. 引言
1.1 均值回归与条件分布
1.2 分位数回归
2. 分位数回归初识
3. 分位数回归模型与 Stata 实现
3.1 生成随机模拟数据
3.2 分位数模型估计及 Stata 实现
3.3 Wald 检验
3.4 系数可视化
4. 面板分位数回归
4.1 Koenker (2004)
4.2 Canay (2011)
4.3 Machado and Silva (2019)
4.4 Powell (2015)
5. 更多参考资料
1. 引言
在此前的推文中,我们对分位数回归和面板分位数回归都做过简单介绍,参见:
- Stata:分位数回归简介
- Stata: 面板分位数回归
本文通过几篇论文的实操对分位数回归进行更为全面的介绍,内容涉及:分位数回归的基本思想、面板分位数回归、边际效应估计及图示等。
1.1 均值回归与条件分布
一般回归模型中着重考察的是解释变量 对被解释变量 的条件均值 的影响,又可看作「均值回归」,但是 刻画的是条件分布 集中趋势,若 是非对称分布,则 就不能很好地反映整个条件分布。如果能够得到 的重要分位数信息,如 1/4 分位数、中位数、3/4 分位数等,则可以更全面的认识 。
从实际来看,分位数信息也十分重要,比如,在评估某项干预对受众群体的影响时,我们不但希望了解干预的「平均」影响,更希望掌握干预对位于特征分布不同位置 (分布末端或顶端) 人群的「异质性」影响。
1.2 分位数回归
针对样本数据「异质性」特征,常用做法是根据数据特征进行「分组回归」,但这样的做法会导致「样本数据的损失」。为此,Koenker 和 Bassett (1978) 提出「分位数回归 (Quantile Regression, QR)」,并使用残差绝对值的加权平均 (如,) 作为最小化的目标函数,尽可能减小极端值的影响。
由此可知,通过设置不同的分位点,分位数回归模型可以全面的刻画解释变量与被解释变量之间的关系。此外,相比于普通的线性回归 (均值回归),分位数回归的估计结果对「偏态、多峰和异常值数据」更为稳健。
2. 分位数回归初识
对一个随机变量 和任意一个 到 之间的数 , 如果 的取值 满足 ,则 是 的 分位数。上述过程语言表述为,在某个样本集中,从小至大排列之后,小于某值的样本子集占总样本集的比例。
有一组数据 ,如何找到一个数 ,使得其和 中的元素尽可能的接近?—— 求数据的「集中趋势: 平均值」。更一般地,设 为最靠近该组数据的中心,则最小化残差平方和就是样本均值。
即:
对 求偏导,得:
可得:
将标量 换成自变量 的线性方程 , 则有:
令 ,上式则变换为:
对应参数 的解即为线性回归模型 的估计值。
(1) 如果损失函数定义为二次函数 ,那么 ,即 对应的解则为最小二乘估计的解。
(2) 如果损失函数定义为 ,那么 ,即 对应的解则为最小一乘估计的解。
(3) 如果损失函数定义为:
则:
即为对应下式的解:
损失函数就是上述例子中模型所表现的误差,最小化损失函数的过程其实是通过损失函数反过来优化模型参数。设分位点 = 0.9,则损失函数为: