交叉熵损失函数理解

最新推荐文章于 2024-04-10 19:06:25 发布

秋水缓缓流

最新推荐文章于 2024-04-10 19:06:25 发布

阅读量7.5k

点赞数

分类专栏：深度学习理解文章标签：交叉熵损失函数

深度学习理解专栏收录该内容

1 篇文章 0 订阅

订阅专栏

交叉熵损失函数的数学原理

我们知道，在二分类问题模型：例如逻辑回归「Logistic Regression」、神经网络「Neural Network」等，真实样本的标签为 [0，1]，分别表示负类和正类。模型的最后通常会经过一个 Sigmoid 函数，输出一个概率值，这个概率值反映了预测为正类的可能性：概率越大，可能性越大。

Sigmoid 函数的表达式和图形如下所示：

g(s)=11+e−sg(s)=11+e−sg(s)=\frac{1}{1+e^{-s}}

其中 s 是模型上一层的输出，Sigmoid 函数有这样的特点：s = 0 时，g(s) = 0.5；s >> 0 时， g ≈ 1，s << 0 时，g ≈ 0。显然，g(s) 将前一级的线性输出映射到 [0，1] 之间的数值概率上。这里的 g(s) 就是交叉熵公式中的模型预测输出。

我们说了，预测输出即 Sigmoid 函数的输出表征了当前样本标签为 1 的概率：

y^=P(y=1|x)y=P(y=1|x)\hat y=P(y=1|x)

很明显，当前样本标签为 0 的概率就可以表达成：

1−y^{=P(y=0|x)1−y}=P(y=0|x)1-\hat y=P(y=0|x)

重点来了，如果我们从极大似然性的角度出发，把上面两种情况整合到一起：

P(y|x)=y^y⋅(1−y)1−yP(y|x)=y^y⋅(1−y)1−yP(y|x)=\hat y^y\cdot (1-\hat y)^{1-y}

不懂极大似然估计也没关系。我们可以这么来看：

当真实样本标签 y = 0 时，上面式子第一项就为 1，概率等式转化为：

P(y=0|x)=1−y^{P(y=0|x)=1−y}P(y=0|x)=1-\hat y

当真实样本标签 y = 1 时，上面式子第二项就为 1，概率等式转化为：

P(y=1|x)=y^P(y=1|x)=yP(y=1|x)=\hat y

两种情况下概率表达式跟之前的完全一致，只不过我们把两种情况整合在一起了。

重点看一下整合之后的概率表达式，我们希望的是概率 P(y|x) 越大越好。首先，我们对 P(y|x) 引入 log 函数，因为 log 运算并不会影响函数本身的单调性。则有：

log P(y|x)=log(y^y⋅(1−y)1−y)=ylog y^{+(1−y)log(1−y})log P(y|x)=log(y^y⋅(1−y)1−y)=ylog y^{+(1−y)log(1−y})log\ P(y|x)=log(\hat y^y\cdot (1-\hat y)^{1-y})=ylog\ \hat y+(1-y)log(1-\hat y)

我们希望 log P(y|x) 越大越好，反过来，只要 log P(y|x) 的负值 -log P(y|x) 越小就行了。那我们就可以引入损失函数，且令 Loss = -log P(y|x)即可。则得到损失函数为：

L=−[ylog y^+(1−y)log (1−y^)]L=−[ylog y^+(1−y)log (1−y^)]L=-[ylog\ \hat y+(1-y)log\ (1-\hat y)]

非常简单，我们已经推导出了单个样本的损失函数，是如果是计算 N 个样本的总的损失函数，只要将 N 个 Loss 叠加起来就可以了：

L=∑i=1Ny(i)log y^(i)+(1−y(i))log (1−y^(i))L=∑i=1Ny(i)log y^(i)+(1−y(i))log (1−y^{(i))L=\sum_{i=1}}Ny^{(i)}log\ \hat y^{(i)}+(1-y{(i)})log\ (1-\hat y^{(i)})

这样，我们已经完整地实现了交叉熵损失函数的推导过程。

本文来自红色石头Will 的CSDN 博客，全文地址请点击：https://blog.csdn.net/red_stone1/article/details/80735068?utm_source=copy

秋水缓缓流

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
交叉熵损失函数理解

交叉熵损失函数的数学原理我们知道，在二分类问题模型：例如逻辑回归「Logistic Regression」、神经网络「Neural Network」等，真实样本的标签为 [0，1]，分别表示负类和正类。模型的最后通常会经过一个 Sigmoid 函数，输出一个概率值，这个概率值反映了预测为正类的可能性：概率越大，可能性越大。Sigmoid 函数的表达式和图形如下所示：g(s)=11+e−sg(...
复制链接

扫一扫