Softmax分类函数

最新推荐文章于 2024-06-25 18:49:11 发布

Zpadger

最新推荐文章于 2024-06-25 18:49:11 发布

阅读量3.5k

点赞数

分类专栏： Deep Learning

Deep Learning 专栏收录该内容

15 篇文章 1 订阅

订阅专栏

softmax分类函数

这部分教程将介绍两部分：

softmax函数
交叉熵损失函数

在先前的教程中，我们已经使用学习了如何使用Logistic函数来实现二分类问题。对于多分类问题，我们可以使用多项Logistic回归，该方法也被称之为softmax函数。接下来，我们来解释什么事softmax函数，以及怎么得到它。

我们先导入教程需要使用的软件包。

import numpy as np 
import matplotlib.pyplot as plt  
from matplotlib.colors import colorConverter, ListedColormap 
from mpl_toolkits.mplot3d import Axes3D  
from matplotlib import cm

Softmax函数

在之前的教程中，我们已经知道了Logistic函数只能被使用在二分类问题中，但是它的多项式回归，即softmax函数，可以解决多分类问题。假设softmax函数ς的输入数据是C维度的向量z，那么softmax函数的数据也是一个C维度的向量y，里面的值是0或者1。softmax函数其实就是一个归一化的指数函数，定义如下：

softmax函数

式子中的分母充当了正则项的作用，可以使得

作为神经网络的输出层，softmax函数中的值可以用C个神经元来表示。

对于给定的输入z，我们可以得到每个分类的概率t = c for c = 1 ... C可以表示为：

概率方程

其中，P(t=c|z)表示，在给定输入z时，该输入数据是c分类的概率。

下图展示了在一个二分类(t = 1, t = 2)中，输入向量是z = [z1, z2]，那么输出概率P(t=1|z)如下图所示。

# Define the softmax function
def softmax(z):
    return np.exp(z) / np.sum(np.exp(z))

# Plot the softmax output for 2 dimensions for both classes
# Plot the output in function of the weights
# Define a vector of weights for which we want to plot the ooutput
nb_of_zs = 200
zs = np.linspace(-10, 10, num=nb_of_zs) # input 
zs_1, zs_2 = np.meshgrid(zs, zs) # generate grid
y = np.zeros((nb_of_zs, nb_of_zs, 2)) # initialize output
# Fill the output matrix for each combination of input z's
for i in range(nb_of_zs):
    for j in range(nb_of_zs):
        y[i,j,:] = softmax(np.asarray([zs_1[i,j], zs_2[i,j]]))
# Plot the cost function surfaces for both classes
fig = plt.figure()
# Plot the cost function surface for t=1
ax = fig.gca(projection='3d')
surf = ax.plot_surface(zs_1, zs_2, y[:,:,0], linewidth=0, cmap=cm.coolwarm)
ax.view_init(elev=30, azim=70)
cbar = fig.colorbar(surf)
ax.set_xlabel('$z_1$', fontsize=15)
ax.set_ylabel('$z_2$', fontsize=15)
ax.set_zlabel('$y_1$', fontsize=15)
ax.set_title ('$P(t=1|\mathbf{z})$')
cbar.ax.set_ylabel('$P(t=1|\mathbf{z})$', fontsize=15)
plt.grid()
plt.show()

P(t=1|z)的概率

softmax函数的导数

在神经网络中，使用softmax函数，我们需要知道softmax函数的导数。如果我们定义：

那么可以得到：

因此，softmax函数的输出结果y对于它的输入数据z的导数∂yi/∂zj可以定义为：

导数推导

注意，当i = j时，softmax函数的倒数推导结果和Logistic函数一样。

softmax函数的交叉熵损失函数

在学习softmax函数的损失函数之前，我们先从学习它的最大似然函数开始。给定模型的参数组θ，利用这个参数组，我们可以得到输入样本的正确预测，正如在Logistic损失函数推导中，我们可以仿照写出这个的最大似然估计：

最大似然估计

根据联合概率，我们可以将似然函数改写成：P(t,z|θ)，根据条件分布，我们最终可以得到如下公式：

条件分布

因为我们不关心z的概率，所以公式又可以改写为：L(θ|t,z)=P(t|z,θ)。而且，P(t|z, θ)可以被写成P(t|z)，如果θ会一个定值。因为，每一个ti都是依赖于整个z，而且只有其中一个t将会被激活，所以我们可以得到下式：

概率推导

正如我们在Logistic函数中推导损失函数的导数一样，最大化似然函数就是最小化它的负对数释然函数：

负对数似然函数

其中，ξ表示交叉熵误差函数。在二分类问题中，我们将t2定义为t2=1−t1。同理，在softmax函数中，我们也可以定义为：

交叉熵误差函数

在n个样本的批处理中，交叉熵误差函数可以这样计算：

批处理

其中，当且仅当tic是1，那么样本i是属于类别c，yic是样本i属于类别c的概率。

softmax函数的交叉熵损失函数的推导

损失函数对于zi的导数∂ξ/∂zi求解如下：

求导过程

上式已经求解了当i=j和i≠j的两种情况。

最终的结果为∂ξ/∂zi=yi−ti for all i ∈ C，这个求导结果和Logistic函数的交叉熵损失函数求导是一样的，再次证明softmax函数是Logistic函数的一个扩展板。

Zpadger

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Softmax分类函数

softmax分类函数这部分教程将介绍两部分：softmax函数交叉熵损失函数在先前的教程中，我们已经使用学习了如何使用Logistic函数来实现二分类问题。对于多分类问题，我们可以使用多项Logistic回归，该方法也被称之为softmax函数。接下来，我们来解释什么事softmax函数，以及怎么得到它。我们先导入教程需要使用的软件包。import num
复制链接

扫一扫

专栏目录