刚开始学习分位数回归和最小一乘,在此记录一下我对分位数回归和最小一乘的理解
一、分位数回归
1.分位数
分位数指的就是连续分布函数中的一个点,这个点对应概率p。若概率0<p<1,随机变量X或它的概率分布的分位数Za,是指满足条件p(X≤Za)=α的实数。
2.分位数回归
回归分析就是处理自变量与因变量之间的关系,最常见的回归分析方法就是最小二乘法,但最小二乘的理论是依据于观测值误差服从零均值高斯分部的假设前提,如果观测值中出现误差从而不满足这个假设,最小二乘的估计结果也会受到影响,而分位数回归方法与之相比在处理异常数据时更为稳健,反应的信息也更为全面。下面就对分位数回归作为详细介绍:
对于损失函数:
对于上述损失函数的感性理解,当τ取值为0.75时,在真值大于估计量时(低估):
当真值小于估计量时(高估):
此时可以认为低估时损失的严重性是高估时的三倍,为了平衡这一点估计时更倾向于去高估,设定不同的τ就可以控制对高估或者低估的倾向程度,从未获得自己感兴趣的统计结果。
从数学角度求解损失函数:
对于损失函数关于自变量求期望:
目标是使上式最小,对其关于x求导并令导数为0:
可以看出它的解就是
它的解是 τ—分位数,对于回归曲线就是曲线之下能够包含百分比为τ的数据点。
上图就是一组不同τ的回归结果,斜率越大,τ越大(直线下包含的数据百分比越多)。
3.求解方法
1.单纯形法(simplex method):该算法估计出来的参数具有很好的稳定性,但是在处理大型数据时运算速度会显著的降低)。
2.内点算法(interior point method):内点算法对于那些具有大量观察值和少量变量的数据集运算效率很高。
3.平滑算法(smoothing method):平滑算法理论上比较简单,它适合处理具有大量观察值以及很多变量的数据集。
二、最小一乘法
当τ取0.5时,损失函数为:
则可以得到其估计准则:
将其与最小二乘的估计准则进行对比
可以看出两者差了一个平方项,因此一个是最小二乘一个是最小一乘。由分位数估计的概念可以看出最小一乘其实就是中位数估计,而最小二乘是一种更靠近平均数的估计。
最小一乘相比于最小二乘有更强的抗差性,比如一个班有五位学生他们分别有零花钱1,2,3,4,5,此时用均值3去描述这个班的学生的零花钱水平是合理的,但如果五个人拥有的钱是1,2,3,4,100,此时用均值就会有失偏颇,但用中位数去统计就不会受到100的影响,由此可以看出最小一乘估计的抗差性。
参考
[1] https://blog.csdn.net/jesseyule/article/details/95247155
[2]https://www.jianshu.com/p/4d6f77588b9a
[3]裴耀. 分位数回归及其应用[D].华中师范大学,2014.