回归分析的主要目的是实证检验理论分析中因变量与自变量之间的关系。
传统的均值回归,主要使用因变量的条件均值函数来描述在自变量每一个特定数值下的因变量的均值,从而揭示自变量与因变量的关系。
但是,条件均值模型存在先天的缺陷。例如,当研究收入分配问题时,我们可能主要关注的是处于分布低尾的穷人和分布高尾的富人等处于因变量非中心位置的情况,而条件均值模型主要考虑的是因变量的均值,难以扩展到这种非中心位置,此时只能使用分位数模型进行估计。
此外,条件均值模型经常受到离群值的困扰。在使用条件均值模型进行实证研究时,面对存在离群值的样本数据时,最常使用的方法是对数据进行缩尾,剔除离群值。然而,很多时候剔除离群值会导致对中心位置的测度具有误导性结论。
然而,这还不是最要命的。条件均值模型假定残差项服从独立同分布、方差齐性、正态性等关键问题在现实中难以满足。
由于存在这么多的缺陷,人们提出了中位数模型替代条件均值模型。中位数是表示分布的中心位置,即0.5分位数。其他位置上的分位数则描述了一种分布的非中心位置。分位数回归模型诞生了。
随着协变量的变化,分位数回归模型则强调了条件分位数的变化。由于所有分位数都是可用的,所以对任何预先决定的分布位置进行建模都是可能的。因此,可以对分布的任意非中心位置进行建模,可选的研究的问题也就变得更加广发。例如贫困问题(对穷人进行研究)、收入分配问题(穷人与富人的收入),教育问题(好成绩与差成绩),税收问题(对穷人与富人的不同影响)等等。与条件均值模型相比,分位数回归则具有无法比拟的优势。
目前,分位数回归已经获得了巨大的发展,不仅可以进行简单的横截面数据的估计,而且还可以进行面板数据模型估计、干预效应模型估计、计数模型估计、因变量是区间值的logistic模型估计、工具变量估计等。