基于分位数回归的成都空气质量指数的数据分析
空气质量指数计算公式为:
(1)线性回归模型得到的是一种条件均值,并未考虑到因变量总体上的分布特征,在需要了解因变量位置(分位数)上的信息时,线性回归就显示出了不足。
(2)线性(均值)回归模型最基本的假设之一正态分布,随机误差且独立时,通过最小二乘法得到的参数估计值是最小方差无偏估计。但是现实生活中大多数数据是不满足正态分布的,这时如果仍然用线性回归模型进行分析,由于在假设检验中值的计算依赖正态性假设,可能会造成值的有偏性,从而导致假设检验无效。若样本数据中存在异方差性或数据的分布是尖峰厚尾的,最小二乘估计量则不具有上述的良好性质。
(3)当样本数据中有离群点存在时,用线性回归模型计算得到的参数估计值可能有较大的偏差,因此,在进行回归拟合时通常会是在去掉离群点后建立线性(均值)回归模型,但这会使离群点在一些社会科学研究中丧失研究意义。
而分位数回归模型相对于一般的线性(均值)回归模型来说,条件更为宽泛,可以描述因变量的全局特征,而不只是均值。另一方面,分位数回归模型具有稳健性,模型的估计值通常不受离群点的影响,从这一角度来说,分位数回归有较强的稳健性。
模型检验:
模型显著性检验(Wald检验)、