线性回归相关基础

回归分析

回归分析是一种统计工具,可让我们量化特定变量与结果之间的关系。它具有惊人的能力,可以隔离我们关心的统计关系,同时考虑其他可能混淆这种关系的因素。换句话说,我们可以隔离一个变量的影响,同时保持其他变量的影响不变。

线性回归

当我们试图了解变量之间的关系时,如果我们对自变量 (X) 进行更改,因变量 (Y) 会发生什么变化。
1.如果自变量增加,我们说的因变量也增加了,呈正相关。
2.如果因变量增加,但因变量减少,我们说有负相关。
线性回归是一种寻找最适合一组点的直线的方法。我们进行观察并将这些观察结果绘制在图表上。然后,我们尝试找到适合所有这些点的直线,即回归线。

假设我们得到了以下回归方程(对于 b/w 体重和身高的关系)。
WEIGHT = –135 + (4.5) × HEIGHT IN INCHES
这里的斜率为 4.5 也称为 *Regression Coefficient,或者在统计术语中,“身高系数”,因为它为我们提供了对身高和体重之间关系的最佳估计。回归系数有一个方便的解释:自变量(身高)增加一个单位与因变量(体重)增加 4.5 个单位相关。对于我们的数据样本,这意味着身高增加 1 英寸与体重增加 4.5 磅相关。

我们要拟合线性回归线。问题是,我们如何确定哪条线最合适?
1.简单线性回归
2.普通最小二乘
3.梯度下降
4.正则化

最小二乘法

在经典线性回归中,我们使用最小二乘法,通过最小化残差平方和来拟合。
在这里插入图片描述
观察的残差是观察值(y 值)和拟合线之间的差异。在上图中,残差用红线标记

线性回归目标

我们线性回归的目标是最小化所有数据点和我们的线的垂直距离(残差)。

如何最小化残差

有很多不同的方法可以减少这种情况
1.平方误差之和
2.绝对误差之和
所有这些方法的总体目标是最小化距离(残差)。

多元回归

更复杂的回归方程可能依赖于多个特征,每个特征都有单独的权重(w1、w2 等)。例如,依赖于三个特征的回归方程可能如下所示:
y′=b+w1x1+w2x2+w3x3

可以对哪些数据应用回归

理解这个问题的一种方法是在对数据应用回归之前我们需要对数据做些什么。它还帮助我们确保 Regression 是否是该数据集的机器学习技术的正确选择?

线性假设

确保您的因变量和自变量的关系是线性的。线性关系 b/w 变量一般可以用散点图上的一条直线来表示和解释。

去除噪音

人类在收集数据时容易出错,导致数据集错误。这些错误被称为噪声。有两种主要类型的噪音。

1.级噪音

如果类/标签未正确分配给数据集的实例/示例,则称为类噪声。
矛盾的实例:同一个实例在数据集中出现多次,并用不同的类标签进行标记。
实例被错误的类标签标记。

2.属性噪声

属性噪声反映了数据集的一个或多个属性(自变量)的错误值。如错误的属性值、缺失值、不完整值。

3.多重共线性

当两个或多个独立变量(也称为预测变量)在回归模型中彼此高度相关时,就会出现多重共线性。重要的是要注意,这是两个自变量之间的相关性,而不是因变量和自变量之间的相关性。
Y=b+a1 * X1+a2 * X2
这里 X1 和 X2 是自变量。 a1 的数学意义是,如果我们将 X1 变量移动 1 个单位,那么我们的 Y 将移动 a1 个单位,保持 X2 和其他东西不变。类似地,对于 a2,如果我们将 X2 移动一个单位,则意味着 Y 也会移动一个单位,保持 X1 和其他因素不变。但是对于存在多重共线性的情况,我们的自变量是高度相关的,所以如果我们改变 X1,那么 X2 也会改变,我们将无法看到它们对 Y 的个体影响。“这使得 X1 对 Y 的影响难以与 X2 对 Y 的影响区分开来。”

4.高斯分布

如果您的输入和输出变量具有高斯分布,线性回归将做出更可靠的预测。您可能会在变量上使用变换(例如 log 或 BoxCox)来使它们的分布看起来更像高斯分布,从而获得一些好处。

5.重新调整分布

如果您使用标准化或归一化重新调整输入变量,线性回归通常会做出更可靠的预测。

R 平方

R 平方,是回归方程解释的总变异量的量度。假设我们的权重样本有很大的差异。样本中的许多人的体重超过了整个群体的平均值;许多重量更轻。 R 平方 告诉我们平均值周围的变化有多少与高度差异有关。如果答案是25%。更重要的一点可能是我们样本的 75% 的重量变化仍然无法解释。除了身高之外,显然还有其他因素可以帮助我们了解参与者的体重。R2 为0意味着我们的回归方程在预测样本中任何个体的体重方面并不比平均值好; R2 为 1 意味着回归方程完美地预测了样本中每个人的体重。

稳健回归

稳健回归(robust regression)是统计学稳健估计中的一种方法,其主要思路是将对异常值十分敏感的经典最小二乘回归中的目标函数进行修改。经典最小二乘回归以使误差平方和达到最小为其目标函数。因为方差为一不稳健统计量,故最小二乘回归是一种不稳健的方法。不同的目标函数定义了不同的稳健回归方法。常见的稳健回归方法有:最小中位平方(least median square;LMS)法、M估计法等。

稳健性测度指标

常用影响函数IF(influence function)及其扩展概念和崩溃点BP(breakdown point)。

影响函数

也称影响曲线(influence curve),它表示给出分布为F的一个(大)样本,在任意点x处加入一个额外观测后对统计量T的(近似或标准化的)影响。如x以1-δ(o≤δ≤1)的概率来自于既定分布F,则其来自于另一个任意污染分布△x的概率为δ,此时的混合分布为:在这里插入图片描述
统计量T的影响函数就定义为:在这里插入图片描述
粗略地说,影响函数IF(x;T,F)是统计量T在一个既定分布F下的一阶导数,其中点x是有限维数的概率分布空间的坐标。如果某个统计量的IF有界,我们就称此统计量具有极微小稳健性。从IF推导出的还有“过失误差敏感度”GES(gross error sensitivity)γ*,它作为主要的局部稳健性尺度,可用以度量固定大小的极微小污染对统计量导致的最大偏差,即F的微小扰动下T的稳定性。如果一个稳健统计量的渐近偏差其上界是有限的,即γ*(T,F)有界,此时称T满足B-robust(B表示偏差bias);另外一个从IF推导出的概念是IF的L2范数,即T的渐近方差
在这里插入图片描述
可作为基本的估计效率尺度。这两个范数都依赖于F,于是可视之为新的泛函,其微小变化下的稳定性(经恰当的标准化后)可由“偏差改变函数”CBF(change of bias function或change of biascurve)和“方差改变函数”CVF(change of variance function或change of variance curve)和“方差改变函数”CVF(change of variance function或change of variance curve)来度量。这两个函数的上确界范数又可以作为简单的总结量,分别称为“偏差改变敏感度”CBS(change of bias sensitivity)和“方差改变敏感度”CVS(change of variance sensitivity)。如果CVS有界,可称T满足V-robust(V表示方差variance)。从概念上讲.V-robust要强于B-robust。

崩溃点

崩溃点是一个全局稳健性尺度。其起初的定义由Hodges针对于单变量情况下位置参数的估计提出,后由Hampel将其推广到更一般情形,回归分析中相对较为实用的概念是Donoho和Huber所提出的它在有限样本条件下的表达:在这里插入图片描述
其中Z为自变量与因变量组成的观测值空间, 为回归估计向量,偏差函数bias表示从Z空间的n个观测中任意替换任意大小的m个值以后(即考虑最坏情况下的离群数据),回归估计 所发生变化的上确界。不太严格地讲,回归估计的崩溃点就表示可使估计值 越过所有边界的过失误差最小比例。稍准确一点,它是距离模型分布的一个距离,超过此距离统计量就变得完全不可靠,且其值越小估计值越不稳健。

常见稳健回归方法

稳健回归估计主要包括基于似然估计的M类、基于残差顺序统计最某些线性变换的L类、基于残差秩次的R类及其广义估计和一些高崩溃点HBP(high breakdown point)方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值