Loss进化史

最新推荐文章于 2022-06-10 17:50:08 发布

SkullSky

最新推荐文章于 2022-06-10 17:50:08 发布

阅读量445

点赞数 1

分类专栏：机器学习文章标签：损失函数交叉熵 MSE softmax sigmoid

本文链接：https://blog.csdn.net/SkullSky/article/details/108357983

版权

作为机器学习跟深度学习的三大要素之一，损失函数的定义极为讲究。不仅要连续可导，求导公式还要尽可能简洁，同时还要适应各种不同类型的问题，如回归问题一般用MSE，分类问题采用交叉熵。那我们就来看看loss的进化史，了解一下为什么要这么搭配。

希望根据一个人的年龄、性别、年收入等相互独立的特征，来预测一个人的政治倾向，有三种可预测结果：民主党、共和党、其他党。假设我们当前采用两个不同的模型分别预测，得到了三个样本属于每个类别的概率值：
模型1：

模型1对于样本1和样本2以非常微弱的优势判断正确，对于样本3的判断则彻底错误。

模型2：

模型2对于样本1和样本2判断更加准确，对于样本3判断错误，但是相对来说没有错得太离谱。

有了模型之后，如何定义损失函数来判断模型在样本上的表现呢？

就是识别错误的样本占总样本的比例，定义如下：

$\ rate = \dfrac{number \ of \ error \ samples}{number \ of \ all \ samples}$

对于模型1： $\ rate = \dfrac{1}{3}$

对于模型2： $\ rate = \dfrac{1}{3}$

可以看到，得到的结果是一样的。虽然模型1和模型2都判别错了一个，但从概率值来看，模型2相比模型1更为贴近真实值，损失函数应该更小才对。但是错误率无法体现这个差异。

均方差用来衡量两个向量之间的差异，定义如下：

$\dfrac{1}{n} \sum_i ^n (y'_i-y_i)^2$

对于模型1,

sample 1: $MSE_1=(0.3-0)^2 + (0.3-0)^2 + (0.4-1)^2 = 0.54$
sample 2:

关注

专栏目录