交叉熵损失函数，softmax与数值稳定性

最新推荐文章于 2024-05-13 20:32:49 发布

小孟Tec

最新推荐文章于 2024-05-13 20:32:49 发布

阅读量968

点赞数 1

分类专栏： TensorFlow 文章标签： python 深度学习神经网络

本文链接：https://blog.csdn.net/m0_38024592/article/details/117883014

版权

交叉熵损失函数 softmax 数值稳定性 TensorFlow 分类模型

关键词由CSDN通过智能技术生成

TensorFlow 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

文章目录

1.交叉熵损失函数

说起交叉熵损失函数「Cross Entropy Loss」，脑海中立马浮现出它的公式：

我们已经对这个交叉熵函数非常熟悉，大多数情况下都是直接拿来使用就好。但是它是怎么来的？为什么它能表征真实样本标签和预测概率之间的差值？上面的交叉熵函数是否有其它变种？也许很多朋友还不是很清楚！没关系，接下来我将尽可能以最通俗的语言回答上面这几个问题。

1.1 交叉熵损失函数的数学原理

我们知道，在二分类问题模型：例如逻辑回归「Logistic Regression」、神经网络「Neural Network」等，真实样本的标签为 [0，1]，分别表示负类和正类。模型的最后通常会经过一个 Sigmoid 函数，输出一个概率值，这个概率值反映了预测为正类的可能性：概率越大，可能性越大。

其中 s 是模型上一层的输出，Sigmoid 函数有这样的特点：s = 0 时，g(s) = 0.5；s >> 0 时， g ≈ 1，s << 0 时，g ≈ 0。显然，g(s) 将前一级的线性输出映射到 [0，1] 之间的数值概率上。这里的 g(s) 就是交叉熵公式中的模型预测输出。

我们说了，预测输出即 Sigmoid 函数的输出表征了当前样本标签为 1 的概率：

在这里插入图片描述
很明显，当前样本标签为 0 的概率就可以表达成：

重点来了，如果我们从极大似然性的角度出发，把上面两种情况整合到一起：

也即，当真实样本标签 y = 0 时，上面式子第一项就为 1，概率等式转化为：

在这里插入图片描述
当真实样本标签 y = 1 时，上面式子第二项就为 1，概率等式转化为：

两种情况下概率表达式跟之前的完全一致，只不过我们把两种情况整合在一起了。

重点看一下整合之后的概率表达式，我们希望的是概率 P(y|x) 越大越好。首先，我们对 P(y|x) 引入 log 函数，因为 log 运算并不会影响函数本身的单调性。则有：
在这里插入图片描述
我们希望 log P(y|x) 越大越好，反过来，只要 log P(y|x) 的负值 -log P(y|x) 越小就行了。那我们就可以引入损失函数，且令 Loss = -log P(y|x)即可。则得到损失函数为：

非常简单，我们已经推导出了单个样本的损失函数，是如果是计算 N 个样本的总的损失函数，只要将 N 个 Loss 叠加起来就可以了：
在这里插入图片描述
这样，我们已经完整地实现了交叉熵损失函数的推导过程。

1.2 交叉熵损失函数的直观理解

综上，我们已经知道了交叉熵损失函数的推导过程。但是能不能从更直观的角度去理解这个表达式呢？而不是仅仅记住这个公式。好问题！接下来，从图形的角度，分析交叉熵函数，加深理解。

首先，还是写出单个样本的交叉熵损失函数：
在这里插入图片描述
我们知道，当 y = 1 时：

这时候，L 与预测输出的关系如下图所示：

看了 L 的图形，简单明了！横坐标是预测输出，纵坐标是交叉熵损失函数 L。显然，预测输出越接近真实样本标签 1，损失函数 L 越小；预测输出越接近 0，L 越大。因此，函数的变化趋势完全符合实际需要的情况。

当 y = 0 时：
在这里插入图片描述
这时候，L 与预测输出的关系如下图所示：

在这里插入图片描述
同样，预测输出越接近真实样本标签 0，损失函数 L 越小；预测函数越接近 1，L 越大。函数的变化趋势也完全符合实际需要的情况。

从上面两种图，可以帮助我们对交叉熵损失函数有更直观的理解。无论真实样本标签 y 是 0 还是 1，L 都表征了预测输出与 y 的差距。

另外，重点提一点的是，从图形中我们可以发现：预测输出与 y 差得越多，L 的值越大，也就是说对当前模型的 “ 惩罚 ” 越大，而且是非线性增大，是一种类似指数增长的级别。这是由 log 函数本身的特性所决定的。这样的好处是模型会倾向于让预测输出更接近真实样本标签 y。

2. softmax与数值稳定性

2.1 $e^x$ 数值溢出问题

指数函数在计算时，容易发生溢出。这里列举了一个简单的例子

在这里插入图片描述
为了解决这个问题，分子分母同时乘一个常数，等效于在次方位置加上一个常数，加上常数之后，等式与原来还是相等的，所以我们可以考虑怎么选取常数。我们的想法是让所有的输入在0附近,这样的e的 $a_i$ 次方的值不会太大，所以可以取 $a_1, ..., a_C$ 的最大值，再取负。

在这里插入图片描述

2.2 在TensorFlow 中，自定义交叉熵损失函数 - 不推荐

我们在做分类模型时，一般会用到交叉熵损失函数。如果自己实现的的话，会有在前文说的数值不稳定的问题，推荐使用tf.nn.softmax_cross_entropy_with_logits这个交叉熵损失函数。

在这里插入图片描述

2.3 TensorFlow中两种方式计算Cross Entropy

tf.nn.sparse_softmax_cross_entropy_with_logits(logits=y, labels=tf.argmax(y_, 1))
tf.nn.softmax_cross_entropy_with_logits(logits=y, labels=y_)

可以看出，softmax_cross_entropy_with_logits第二个参数传入的参数是原数组，
而sparse_softmax_cross_entropy_with_logits传入的是原数组中为1的索引位置。

2.3.1 `tf.nn.softmax_cross_entropy_with_logits` 用法

用法

tf.nn.softmax_cross_entropy_with_logits(logits, labels, name=None)

第一个参数logits：就是神经网络最后一层的输出，如果有batch的话，它的大小就是[batchsize，num_classes]，单样本的话，大小就是num_classes
第二个参数labels：实际的标签，大小同上
注意！！！这个函数的返回值并不是一个数，而是一个向量，如果要求交叉熵，我们要再做一步tf.reduce_sum操作,就是对向量里面所有元素求和，最后才得到，如果求loss，则要做一步tf.reduce_mean操作，对向量求均值！
代码如下：

import tensorflow as tf
 
#our NN's output
logits=tf.constant([[1.0,2.0,3.0],[1.0,2.0,3.0],[1.0,2.0,3.0]])
#step1:do softmax
y=tf.nn.softmax(logits)
#true label
y_=tf.constant([[0.0,0.0,1.0],[0.0,0.0,1.0],[0.0,0.0,1.0]])
#step2:do cross_entropy
cross_entropy = -tf.reduce_sum(y_*tf.log(y))
#do cross_entropy just one step
cross_entropy2=tf.reduce_sum(tf.nn.softmax_cross_entropy_with_logits(logits=logits, labels=y_))#dont forget tf.reduce_sum()!!

cross_entropy3 = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=logits, labels=tf.argmax(y_, 1))
cross_entropy4 = tf.nn.softmax_cross_entropy_with_logits(logits=logits, labels=y_)
 
with tf.Session() as sess:
    softmax=sess.run(y)
    c_e = sess.run(cross_entropy)
    c_e2 = sess.run(cross_entropy2)
    print("step1:softmax result=")
    print(softmax)
    print("step2:cross_entropy result=")
    print(c_e)
    print("Function(softmax_cross_entropy_with_logits) result=")
    print(c_e2)
    print('*'*66)
    print(sess.run(cross_entropy3))
    print(sess.run(cross_entropy4))

"""
step1:softmax result=
[[0.09003057 0.24472848 0.66524094]
 [0.09003057 0.24472848 0.66524094]
 [0.09003057 0.24472848 0.66524094]]
step2:cross_entropy result=
1.222818
Function(softmax_cross_entropy_with_logits) result=
1.2228179
******************************************************************
[0.40760595 0.40760595 0.40760595]
[0.40760595 0.40760595 0.40760595]
"""

输出

step1:softmax result=
[[ 0.09003057  0.24472848  0.66524094]
 [ 0.09003057  0.24472848  0.66524094]
 [ 0.09003057  0.24472848  0.66524094]]
step2:cross_entropy result=
1.22282
Function(softmax_cross_entropy_with_logits) result=
1.2228

最后大家可以试试e^1/(e1+e^2+e3)是不是0.09003057，发现确实一样！！

2.4 `tf.log(tf.nn.softmax(logits))` 和 `tf.nn.log_softmax(logits)`等效

其中logits是matrix

logits=tf.constant([[1.0,2.0,3.0],[1.0,2.0,3.0],[1.0,2.0,3.0]])
#step1:do softmax
y=tf.nn.softmax(logits)
#step2:do cross_entropy
with tf.Session() as sess:
    res = sess.run(tf.log(y))
    res2 = sess.run(tf.nn.log_softmax(logits))

print(res)
print(res2)
"""
array([[-2.407606  , -1.4076059 , -0.407606  ],
       [-2.407606  , -1.4076059 , -0.407606  ],
       [-2.407606  , -1.4076059 , -0.40760598]], dtype=float32)

array([[-2.407606  , -1.4076059 , -0.40760595],
       [-2.407606  , -1.4076059 , -0.40760595],
       [-2.407606  , -1.4076059 , -0.40760595]], dtype=float32)
"""

Reference

https://juejin.cn/post/6844903622233292813
https://blog.csdn.net/mao_xiao_feng/article/details/53382790#

小孟Tec

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
交叉熵损失函数，softmax与数值稳定性

文章目录1.交叉熵损失函数1.1 交叉熵损失函数的数学原理1.2 交叉熵损失函数的直观理解2. softmax与数值稳定性2.1 exe^xex数值溢出问题2.2 在TensorFlow 中，自定义交叉熵损失函数 - 不推荐2.3 `tf.nn.softmax_cross_entropy_with_logits` 用法Reference1.交叉熵损失函数说起交叉熵损失函数「Cross Entropy Loss」，脑海中立马浮现出它的公式：我们已经对这个交叉熵函数非常熟悉，大多数情况下都是直接拿来
复制链接

扫一扫