感知机学习-为什么损失函数可以不考虑L2范数？

最新推荐文章于 2023-01-10 14:51:56 发布

图灵机学长

最新推荐文章于 2023-01-10 14:51:56 发布

阅读量911

点赞数 1

分类专栏：统计学习方法2-李航文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/HPGaa/article/details/117222447

版权

3 篇文章 2 订阅

订阅专栏

1. 前言

最近想重新学习一下统计学习方法（第2版）-李航，为深度学习打下一个坚实的基础。
在看到感知机的损失函数时产生了这样一个疑问，为什么明明用几何间隔计算结果更好，为什么不用，反而用效果不那么好的函数间隔？（函数间隔：即使是同一个平面，计算结果会随着w和b的缩放而产生不同的结果）

其中f(x)为函数值，y是人为设定的样本的值（如：区分猫狗图片，猫标定为“ +1”，狗为“ -1 ”），即函数值✖标签。为什么该式可以表示距离？实际上函数间隔并不是真正的数据点到超平面的距离，只是表示数据点被分为某一类的确信度。

几何间隔是严格数学公式，具体推导过程网上也很多，这里就不多做说明。

为什么要用有些地方要用几何间隔？
几何间隔相对于函数间隔的一个优势就是它不受参数（ w和b ）缩放影响，所以在SVM 这种优化目标是点到超平面之间的间隔的模型中，采用的是几何间隔（如果采用函数间隔，学习过程会不断的产生更大的w和b，根本停不下来）。
对于感知机：
感知机的目标是使误分类的点的个数为0，采用几何间隔并不会带来什么好处，反而会使学习过程复杂化。有些同学可能认为在损失函数L最小化的过程中，若不对参数进行归一化，目标会偏向于选择量级较小的参数w和b。
但是在线性可分的情况下这是不会发生的，因为损失函数是定义在误分类点的集合上的，只要误分点集合为空，就能取到最小值0，这种情况下无论w和b的初值如何，损失L最终都可以收敛到0。而对于数据不是线性可分的情况，感知机是处理不了的，这种情况下无论怎么训练，误分类点的集合总不为空，算法会一直使用集合中的误分点更新参数，超平面会在线性不可分的点之间摆动，算法无法收敛。

关注

专栏目录