为什么交叉熵损失函数值越小分类效果越好？

最新推荐文章于 2024-08-09 13:44:55 发布

zhupc_

最新推荐文章于 2024-08-09 13:44:55 发布

阅读量1.9w

点赞数 7

分类专栏：机器学习

本文链接：https://blog.csdn.net/u014296502/article/details/80184539

版权

机器学习专栏收录该内容

26 篇文章 3 订阅

订阅专栏

在学习机器学习过程中，我们经常会用到损失函数来判断模型是否在学习，经常使用的损失函数大多是平方损失函数，与交叉熵损失函数。平方损失函数，我们很容易理解为什么值越小分类效果越好。

L o s s (w) = 1 m \sum i m (y i - y h a t i) 2

$Loss(w)=\frac{1}{m}\sum_{i}^{m}(y_i-y^{hat}_i)^2$
很显然，如果预测的越接近，则loss值越小，这个损失函数基本上没有什么疑问。但是由于这个函数不是凸函数，所以被应用的不多，大多数都是使用交叉熵损失函数。

L o s s (w) = - 1 m \sum i m y i l o g y h a t i + (1 - y i) l o g (1 - y h a t i)

$Loss(w)=-\frac{1}{m}\sum_{i}^{m}y_ilogy_i^{hat}+(1-y_i)log(1-y_i^{hat})$
如果我们同样借助上面的思想，如果预测的越接近，则损失函数越小，很显然这个损失函数满足。但是我相信你绝对不仅仅满足于此，这个损失函数的由来是什么？平方损失很容易想到是两个空间向量的距离，越接近越好。交叉熵损失函数呢？今天就带你进入另一个世界。
此处划重点，交叉熵损失函数来源于参数估计，极大似然估计。
分类属于监督学习，是利用有限的样本，来得到整体的样本分布。以二分类为例，