图解机器学习-Huber损失最小化学习-matlab源码及结果

最新推荐文章于 2025-05-20 10:07:30 发布

原创最新推荐文章于 2025-05-20 10:07:30 发布 · 3.9k 阅读

16 ·

CC 4.0 BY-SA版权

matlab 同时被 2 个专栏收录

31 篇文章

订阅专栏

图解机器学习

26 篇文章

订阅专栏

本文探讨了在机器学习中鲁棒性的概念及其重要性，特别是在存在异常数据的情况下。介绍了最小二乘法的局限性，并提出了L1损失最小化学习和Huber方法作为解决鲁棒性问题的有效手段。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

鲁棒这个词第一次听是在学习c语言的时候，那时候还学了一个健壮性，两个词不知道为什么觉得很粗鲁，跟程序没啥关系，感觉是凑上来的性质，下面就看看在机器学习里面的鲁棒是个啥东西？

最小二乘法学习的过程中如果有异常数据（不可避免地）出现的时候，会使曲线的拟合程度大打折扣，这时候提出鲁棒的观点就是：在统计学领域和机器学习领域，对异常数据也能保持稳定，可靠的性质，称为鲁棒性。

L1损失最小化学习：（L1损失对残差增幅加以抑制的学习算法）-LA=Least Absolute-最小绝对值偏差学习-----好多名字

Huber(有效性L2与鲁棒性L1结合的学习方法）

如果残差的绝对值小于阀值，上式变为L2损失；如果残差的绝对值大于阀值。上式就变为L1损失。为了与L2损失平滑的连接，在L1损失中减去常数 $\eta ^{2}/2$ 。

第三步：计算终结计数。按Tukey理论，采取改进措施前后产品合格率若发生显著变化，则A，B两系列的数据就不会完全重叠，未重叠的数据个数即为终结计数。分别从顶端和底端计数未重叠的数据个数，称之为顶端终结计数和底端终结计数，两端终结计数之和即为总终结计数。若某一系列的数据区间被另一比对系列的数据区间全部包含，则总终结计数计为零（如本例所示）；若两系列的数据区间不存在一个系列完全包含另一个系列的状况，则计数方法为：从已合并排序的整个数据列的顶端第一个数据开始数起，一直数到序列标记变更为止，连续的同系列数据的个数为顶端终结计数；若在数据系列变更时，对应的两个数据相等，则变更时的那个数据按1/2计数。同理，从底端第一个数据开始数起，一直到序列标记变更为止，可得底端终结计数值。示例如下：

第四步：将所得的终结计数值与Tukey检验的某置信水平下终结计数的临界值比较，如果所得的终结计数值大于该临界值，则表明采取改进措施后，在该置信水平下可以认为产品合格率发生了变化。（下图中的显著水平针对的双边计数（Two-Sided），若单边计数(One-Sided)则对应的显著水平为图示的一半，即双边计数时显著水平5%对应的终结计数临界值与单边计数时显著水平为2.5%对应的终结计数临界值是一样的）

第五步：结论。终结计数EC=0，而根据上表可以看出，在95%的置信水平（也就是5%的显著水平）下，终结计数的临界值为7。所以在95%的置信水平下，不能认为采取措施后，产品合格率发生了显著变化。如果终结计数EC=8，则表明在95%的置信水平下，可以认为采取措施后，产品合格率发生了显著变化（改进有效果）。

好了上面的部分是贴过来的tukey相关的一种看看有没有显著变化的方法，感觉这种统计学的方法很难，但是本公式里面权值部分的tukey在接下来的章节中会讲到，所以这部分不理解也关系了。

专门讲解HSD方法的：https://wiki.mbalib.com/wiki/HSD%E6%A3%80%E9%AA%8C%E6%B3%95

matlab源码以及实验的运行结果：

>> rand('state',0);randn('state',0);
n=10;N=1000;x=linspace(-3,3,n)';X=linspace(-4,4,N)';
y=x+0.2*randn(n,1);y(4)=-4;
p(:,1)=ones(n,1);p(:,2)=x;t0=p\y;e=1;
>> for o=1:1000
r=abs(p*t0-y); w(:,1)=ones(n,1);w(r>e)=e./r(r>e);
t=(p'*(repmat(w,1,2).*p))\(p'*(w.*y));
if norm(t-t0)<0.001,break,end
t0=t;
end
>> P(:,1)=ones(N,1); P(:,2)=X; F=P*t;
>> figure(1);clf;hold on;axis([-4 4 -4.5 3.5]);
>> plot(x,y,'bo');
>> plot(X,F,'g-');