深度学习softmax函数理解_softmax=exp(x)函数深度学习-CSDN博客

本文链接：https://blog.csdn.net/qq_41860497/article/details/121687893

文章目录

一，引入

我们为什么要引入这个函数，我们知道在机器学习当中，一些问题大概可以分为两种，一种是分类问题，一种是回归问题。
但，分类问题中可以有二分类问题和多分类问题。
对于而分类问题，我们可以很容易的想到使用逻辑回归算法。逻辑回归算法本身的逻辑并不复杂，最关键的步骤是将线性模型中输出值通过某种方式映射到[0,1]区间内。
在这里插入图片描述
通过sigmoid函数可以判断，根据头发等判断是否为男女，肿瘤问题等等。

对于softmax可以理解为就是解决多分类问题，将多分类问题结果通过概率的形式展现出来。

二，softmax是什么？

如果要说明softmax是什么的问题，就不得不提那种是非softmax的形式，举个例子，例如ReLu函数就是一种非softmax,而是一种hardmax。对于多分类问题（这里讨论的是两种分类以上），我么想要得到的信息是对于每种可能类别的可信度。即对每种可能结果赋予一个概率值。

下面给出softmax的定义：
在这里插入图片描述
$z_i$ 为第i个节点的输出值，C为节点的个数，可能输出结果的总数（分类类别数）。
通过上例中就可以将多分类问题的输出值（无论是多大）转化为范围在[0, 1]和为1的概率分布。

三，为什么使用 $e^x$

认为最主要的是对于 $e^x$ ,随着x的不断上升，斜率在不断的增大。当我们在x上有一点微小的变化时，都会导致y上的变化值较大。能够将输出的数值拉开距离，比较好的区分开来。
还有一个优点是在bp网络中求梯度，和使用各种梯度下降法去优化参数的时候， $e^x$ 求导为本身。
在这里插入图片描述

在pytroch中，Softmax与交叉熵损失函数同时实现。

实现

def softmax(X):
    """
    :param X:
    :return:
    """
    # 对向量中的每一个求他 e^x的值
    X_exp = torch.exp(X)
    # 对其进行一阶求和
    partition = X_exp.sum(1, keepdim=True) # 对求出的值任然保持维度
    return X_exp / partition #这里利用了一个广播机制， 将所有的数都进行除法的运算

def net(X):
    # -1
    return softmax(torch.matmul(X.reshape((-1, W.shape[0])), W) + b)

总结

如果模型输出为非互斥类别，且可以同时选择多个类别，则采用Sigmoid函数计算该网络的原始输出值。如果模型输出为互斥类别，且只能选择一个类别，则采用Softmax函数计算该网络的原始输出值。

参考：
[1] https://zhuanlan.zhihu.com/p/105722023
[2] http://www.noobyard.com/article/p-voihadih-qc.html
[3] https://www.bilibili.com/video/BV1K64y1Q7wu?from=search&seid=9124491475035014829&spm_id_from=333.337.0.0
[4] https://blog.csdn.net/bitcarmanlee/article/details/82320853