有监督回归:鲁棒学习

1.前言

虽然最小二乘学习法是非常实用的机器学习方法,但是当训练样本中包含异常值的时候,学习效果非常易于受到影响。下图展示的是对于线性模型:
在这里插入图片描述
以10个训练样本进行最小二乘学习的例子。测试结果如下图所示:
在这里插入图片描述
最小二乘学习法具有容易受到异常值影响的弱点

(a)图显示的是没有一场值得情况下能够得到合理的学习结果。但是在(b)图中,如果存在一个异常值,那么最小二乘学习的最终结果会发生极大地变化。

在实际应用中,当样本数量很多的时候,自然会或多或少的包含一些异常值。因此,在这种情况下应用最小二乘学习法,并不能得到令人信赖的结果。在统计学领域和机器学习领域,对异常值也能保持稳定、可靠的性质,称为鲁棒性。

当训练样本中混入异常值时,往往希望采用先除去这些异常值在进行学习的方法,或者采用保留异常值,但结果不容易受到异常值影响的方法。去除异常值的方法我们以后再谈,本编文章集中讨论对于异常值有较高鲁棒性的鲁棒学习算法。

2.L1损失最小化学习

2.1 原理

最小二乘学习中,对训练样本的合理性,一般采用L2损失Jls(Θ)来测定:
在这里插入图片描述
这里的ri是顺序为i的训练样本所对应的残差,
在这里插入图片描述
L2损失的大小会随着残差呈平方级数增长,如下图所示:
在这里插入图片描述
如果像“前言”中所讲的那样,训练集中一旦出现一个异常值,学习结果的函数就会发生极大的变化。因此,本节主要讨论使用L1损失对残差增幅加以抑制的学习算法。
在这里插入图片描述
LA=Least Absolute的首字母。这个方法一般也被称为L1损失最小化学习或者最小绝对值偏差学习。具体求解方法一会再谈。我们先对引言中的问题进行测试,测试结果如下:
在这里插入图片描述
最小绝对值偏差学习可以抵抗异常点

通过这个结果我们可以看出,最小绝对值偏差学习要比最小二乘学习受异常值的影响小,另外,对于没有异常值的情况,其结果与最小二乘学习基本相同。

2.2 原理解释

对于常识模型:
在这里插入图片描述
最小二乘学习的最终输出结果是训练样本输出值{yi}i=1->n的平均值:
在这里插入图片描述
最小绝对值偏差学习的最终输出结果则是训练样本输出值的中间值:
在这里插入图片描述
对于平均值而言,只要其中一个值出现巨大变化,都会对最终结果产生巨大影响。但是对于中值而言,某一个或某几个值发生巨大变化对中值影响是有限的。这就是为什么最小绝对值偏差学习对异常值具有鲁棒性。

3.Huber损失最小化学习

3.1 原理与定义

虽然使用L1损失可以得到非常高的鲁棒性,但是高的鲁棒性也意味着训练样本与训练模型并不十分吻合。举一个极端的例子:不论对于什么样的样本,都输出Θ=0,这样也能得到最高的鲁棒性。因此,如果片面的去追求高的鲁棒性,实际的学习效果往往不能达到预期。训练样本的信息得到了多大程度的灵活应用,可以医用训练样本的有效性来评估。本节中,我们主要介绍能够很好滴取的有效性和鲁棒性平衡的Huber损失最小化法。

Huber损失的定义如下所示,这里混合使用了L1和L2损失:
在这里插入图片描述
图示为:
在这里插入图片描述
Huber损失,阈值η=1

如果残差的绝对值|r|小于阈值η的话,上式就是L2损失;如果残差的绝对值|r|大与阈值η,就变成了L1损失。

但是为了与L2损失平滑地连接,在L1损失中减去了常数η^2/2。这样的学习方法就称为Huber损失最小化学习。

3.2 原理解释

在这里插入图片描述
还是从最原始的线性模型开始讨论:
在这里插入图片描述
把Huber损失ρHuber的绝对值部分用二次函数从上方进行抑制:
在这里插入图片描述
接下来,可以采用迭代算法进行求解,并根据现在的解Θ’计算得到的残差的绝对值|ri’|来代替ci,构成如下的形式:
在这里插入图片描述
通过这样的方式,那么我们的目标函数J(Θ)的上界的最小化问题就可以通过下式家阿暖细小二乘学习法进行求解:
在这里插入图片描述
在这里插入图片描述
对于上式,权重可以使用下式加以定义:
在这里插入图片描述
下图展示的是对与线性模型进行Huber损失最小化学习的例子。其中阈值η=1.在本例中,反复加权最小二乘学习法只通过两次迭代就可以返回与最终结果相近似的函数。全部四次迭代后就收敛,得到了对于异常值鲁棒性很强的学习结果。具体如下所示:
在这里插入图片描述
注意:将阈值η设定为非常小的时候,Huber损失可以认为是L1损失的平滑近似,因此通过上述反复加权最小二乘法,可以对L1损失最小二乘学习进行近似求解。

4.图基损失最小化学习

4.1 原理与定义

Huber损失,是通过L1损失和L2损失进行优化组合,是有效性和鲁棒性达到平衡的学习方法。然而,只要使用L2损失对异常值进行处理,就会使得异常值对结果的影响非常巨大。在实际应用中,Huber损失最小化学习的权重即使对于大的残差也不会变为零,如下图所示:
在这里插入图片描述
大的残差下,Huber学习权重会减小但并不为零

在这种严峻状况下的机器学习,采用图基(Tukey)损失法是非常好的选择。如下图所示:
在这里插入图片描述
图基(Tukey)损失,阈值η=3
在这里插入图片描述
图基损失中,如果残差绝对值|r|大于阈值η(就是我们说的异常值),就用η^2/6的形式输出。因此,图基损失最小化学习一般具有非常高的鲁棒性。

但是,因为图基损失并不是凸函数,一般拥有多个局部最优解,所以在整个值域范围内求得最优解并不是一件容易的事情。在实际应用中,将以下面的权重应用于3节介绍的反复加权最小二乘学习法。就可以得到局部最优解,权重公式为:
在这里插入图片描述
另外,当|r|>η是,权重完全变为零,因此图基损失最小化学习完全不受显著异常值影响。

4.2 实例演示

在这里插入图片描述
图基可以得到鲁棒性更强的结果,但数据噪声发生变化时容易产生其他局部最优解

阈值η=1。在这个例子中,得到比Huber损失最小学习鲁棒性还要强的结果。然而,图基损失最小化学习的结果依赖于初始化选取,初始值一旦发生变化,或者数据量减少的话,就可能得到完全不同的学习结果。在实际应用中,就会发生图©所示的意外结果。

5.L1约束的Huber损失最小化学习

之前我也介绍了L1约束的稀疏学习法,本片也给出了鲁棒学习法。这两种算法是相互独立的,都是对最小二乘进行拓展得到的,把他们组合在一起,也可以形成新的算法。所以本节介绍的就是稀疏学习中的鲁棒学习方法。

首先回顾L1约束Huber损失最小化学习:
在这里插入图片描述
就像之前学习到的,L1约束的最小二乘学习的解是通过一般化L2约束的最小二乘学习的反复迭代而求得的。另外,在本篇3节中也介绍过,Huber损失最小化学习的解是通过加权最小二乘学习法的反复迭代而求得的。因此,把他们优化组合在一起,可以得到更好的结果。

下面给出了一个例子作对比:
在这里插入图片描述
对核函数模型进行L1约束的Huber损失最小化学习的例子

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值