相关系数与回归系数
Kendall和Spearman相关性是衡量两个变量之间关联程度的指标,即两个变量之间的关联程度。结果是一个相关系数,这是一个统计数据,它告诉你事物是如何相关的(1是一个完美的关系,0是一个完美的关系缺失),在粗略的意义上,这种相关性的方向性(-1代表一个负斜率)。同样需要注意的是,Spearman和Kendall相关系数都对异常值敏感,Spearman方法更为敏感。在
另一方面,Robust Linear Regression是线性回归的一个特例,它是寻找2个或更多变量之间关系的一种方法。你可以把它看作是找到“最佳拟合线”的一种方法。线性回归的结果是回归系数,它是衡量(方向和坡度)响应如何随变量变化的度量。在
“经典”与稳健线性回归
通常,线性回归使用Ordinary Least Squares, or OLS来寻找回归系数,目标是最小化残差的平方和(估计线和实际数据之间的差值的平方根)。这对异常值非常敏感:x = np.arange(0,10,0.2)
y = (x*0.25)+np.random.normal(0,.1,50)
y[[12,14,18,24]] -= 4
sns.regplot(x,y, robust = False)
注意这行是如何被离群值拖下来的。在很多情况下,这是你想要看到的行为。在
另一方面,健壮的回归方法除了使用OLS外,通常使用不同的度量来寻找回归系数,例如最小化least trim squares,它本质上