softmax函数

最新推荐文章于 2024-08-06 21:06:26 发布

全是头发的羊羊羊

最新推荐文章于 2024-08-06 21:06:26 发布

阅读量1.3k

点赞数 17

分类专栏：机器学习文章标签：机器学习激活函数

本文链接：https://blog.csdn.net/qq_55552561/article/details/135276855

版权

机器学习专栏收录该内容

5 篇文章 1 订阅

订阅专栏

本文介绍了Softmax函数的原理，如何通过指数函数将多分类输出转换为概率分布，以及在深度学习中的应用，包括与Numpy和TensorFlow的实现，指数函数的优势与缺点，以及如何与交叉熵损失函数结合以提高数值稳定性。

摘要由CSDN通过智能技术生成

参考一文详解Softmax函数 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/105722023

什么是softmax

Softmax从字面上来说，可以分成soft和max两个部分。max故名思议就是最大值的意思。Softmax的核心在于soft，而soft有软的含义，与之相对的是hard硬。很多场景中需要我们找出数组所有元素中值最大的元素，实质上都是求的hardmax。

下面使用Numpy模块以及TensorFlow深度学习框架实现hardmax。

使用Numpy模块实现hardmax：

import numpy as np

a = np.array([1, 2, 3, 4, 5]) # 创建ndarray数组
a_max = np.max(a)
print(a_max) # 5

使用TensorFlow深度学习框架实现hardmax：

import tensorflow as tf

print(tf.__version__) # 2.0.0
a_max = tf.reduce_max([1, 2, 3, 4, 5])
print(a_max) # tf.Tensor(5, shape=(), dtype=int32)

通过上面的例子可以看出hardmax最大的特点就是只选出其中一个最大的值，即非黑即白。但是往往在实际中这种方式是不合情理的，比如对于文本分类来说，一篇文章或多或少包含着各种主题信息，我们更期望得到文章对于每个可能的文本类别的概率值（置信度），可以简单理解成属于对应类别的可信度。所以此时用到了soft的概念，Softmax的含义就在于不再唯一的确定某一个最大值，而是为每个输出分类的结果都赋予一个概率值，表示属于每个类别的可能性。

Softmax函数的定义

下面给出Softmax函数的定义（以第i个节点输出为例）：

$Softmax(z_{i})=\frac{e^{z_{i}}}{\sum _{c=1}^{C}e^{z_{c}}}$

其中 $z_{i}$ 为第i个节点的输出值，C为输出节点的个数，即分类的类别个数。

通过Softmax函数就可以将多分类的输出值转换为范围在[0, 1]和为1的概率分布。

引入指数的优点

指数函数曲线呈现递增趋势，最重要的是斜率逐渐增大，也就是说在x轴上一个很小的变化，可以导致y轴上很大的变化。这种函数曲线能够将输出的数值拉开距离。

假设拥有三个输出节点的输出值为 $z_{1},z_{2},z_{3}$ 为[2, 3, 5]。首先尝试不使用指数函数 $\frac{z_{i}}{\sum _{c=1}^{3}z_{c}}$ ，接下来使用指数函数的Softmax函数计算。

import tensorflow as tf

print(tf.__version__) # 2.0.0
a = tf.constant([2, 3, 5], dtype = tf.float32)

b1 = a / tf.reduce_sum(a) # 不使用指数
print(b1) # tf.Tensor([0.2 0.3 0.5], shape=(3,), dtype=float32)

b2 = tf.nn.softmax(a) # 使用指数的Softmax
print(b2) # tf.Tensor([0.04201007 0.11419519 0.8437947 ], shape=(3,), dtype=float32)

结果还是挺明显的，经过使用指数形式的Softmax函数能够将差距大的数值距离拉的更大。

在深度学习中通常使用反向传播求解梯度进而使用梯度下降进行参数更新的过程，而指数函数在求导的时候比较方便。比如 ( $e^{x}$ )′= $e^{x}$ 。

引入指数的缺点

指数函数的曲线斜率逐渐增大虽然能够将输出值拉开距离，但是也带来了缺点，当 $z_{i}$ 值非常大的话，计算得到的数值也会变的非常大，数值可能会溢出。

import numpy as np

scores = np.array([123, 456, 789])
softmax = np.exp(scores) / np.sum(np.exp(scores))
print(softmax) # [ 0.  0. nan]

当然针对数值溢出有其对应的优化方法，将每一个输出值减去输出值中最大的值。

$D=max(z)$

$Softmax(z_{i})=\frac{e^{z_{i}-D}}{\sum _{c=1}^{C}e^{z_{c}-D}}$

import numpy as np

scores = np.array([123, 456, 789])
scores -= np.max(scores)
p = np.exp(scores) / np.sum(np.exp(scores))
print(p) # [5.75274406e-290 2.39848787e-145 1.00000000e+000]

这里需要注意一下，当使用Softmax函数作为输出节点的激活函数的时候，一般使用交叉熵作为损失函数。由于Softmax函数的数值计算过程中，很容易因为输出节点的输出值比较大而发生数值溢出的现象，在计算交叉熵的时候也可能会出现数值溢出的问题。

为了数值计算的稳定性，TensorFlow提供了一个统一的接口，将Softmax与交叉熵损失函数同时实现，同时也处理了数值不稳定的异常，使用TensorFlow深度学习框架的时候，一般推荐使用这个统一的接口，避免分开使用Softmax函数与交叉熵损失函数。

TensorFlow提供的统一函数式接口为：

import tensorflow as tf

print(tf.__version__) # 2.0.0
tf.keras.losses.categorical_crossentropy(y_true, y_pred, from_logits = False)

其中y_true代表了One-hot编码后的真实标签，y_pred表示网络的实际预测值：

当from_logits设置为True时，y_pred表示未经Softmax函数的输出值；
当from_logits设置为False时，y_pred表示为经过Softmax函数后的输出值；

为了在计算Softmax函数时候数值的稳定，一般将from_logits设置为True，此时tf.keras.losses.categorical_crossentropy将在内部进行Softmax的计算，所以在不需要在输出节点上添加Softmax激活函数。

import tensorflow as tf


z = tf.random.normal([2, 10]) # 构造2个样本的10类别输出的输出值
y = tf.constant([1, 3]) # 两个样本的真实样本标签是1和3
y_true = tf.one_hot(y, depth = 10) # 构造onehot编码

# 输出层未经过Softmax激活函数,因此讲from_logits设置为True
loss1 = tf.keras.losses.categorical_crossentropy(y_true, z, from_logits = True)
loss1 = tf.reduce_mean(loss1)
print(loss1) # tf.Tensor(2.6680193, shape=(), dtype=float32)

y_pred = tf.nn.softmax(z)
# 输出层经过Softmax激活函数,因此讲from_logits设置为True
loss2 = tf.keras.losses.categorical_crossentropy(y_true, y_pred, from_logits = False)
loss2 = tf.reduce_mean(loss2)
print(loss2) # tf.Tensor(2.668019, shape=(), dtype=float32)