作者:武翰涛 (南京邮电大学)
- Stata连享会 计量专题 || 公众号合集
2020寒假Stata现场班 (北京, 1月8-17日,连玉君-江艇主讲)
「+助教招聘」
1. 引言
在多数实证分析中,我们关注的焦点都在于考察解释变量 对被解释变量 的影响,其思想是从平均数的角度去分析得到参数结果,即均值回归。但均值回归往往会受到极端值的影响,使得参数估计变得很不稳定 (在执行分组回归时这一问题尤其突出)。另一方面,基于 OLS 的线性回归模型只能让我们分析 对 的平均影响效果。而当,条件分布 不是对称分布时,条件期望 很难反映整个条件分布的全貌。如果能估计条件分布 的若干重要条件分布,就能对条件分布 有更全面的认识[1]。
2. 分位数回归模型
2.1 总体分位数
假设 为连续型随机变量,其累积分布函数为 ,则 的“总体 分位数”,记为 ,满足以下定义式:
即总体 分位数正好将总体分布分为两部分,其中小于或等于 的概率为,而大于 的概率为 。如果 则为中位数,正好将总体分为两个相等的部分,一半在中位数之上,而另一半在中位数之下。如果 严格单调递增,则有
其中, 为 的逆函数。
对于回归模型而言,记条件分布 的累积分布函数为 。条件分布 的总体 分位数,记为 ,满足以下定义式:
假设严格单调递增,则有
由于条件累积分布函数 依赖于 ,故条件分布 的总体 分位数 也依赖于 ,可以明确地写为 ,称为 ”条件分位数函数“。换言之,条件分位数函数 是解释变量 的函数。更进一步,对于线性回归模型而言,如果扰动项满足同方差的假定,或扰动项异方差的形式为乘积形式,则 是 的线性函数[2]。
2.2 样本分位数
对于随机变量 ,如果总体的q分位数 未知,则可以使用样本 分位数 来估计 。通常的做法是,首先将样本数据 按照从小到大的顺序排列为 ,则 等于第 个最小观测值,其中 为样本容量, 表示大于或等于nq并离nq最近的正整数。比如n=95&#