深度学习softmax函数理解

一,引入

我们为什么要引入这个函数,我们知道在机器学习当中,一些问题大概可以分为两种,一种是分类问题,一种是回归问题。
但,分类问题中可以有二分类问题和多分类问题。
对于而分类问题,我们可以很容易的想到使用逻辑回归算法。逻辑回归算法本身的逻辑并不复杂,最关键的步骤是将线性模型中输出值通过某种方式映射到[0,1]区间内。
在这里插入图片描述
通过sigmoid函数可以判断,根据头发等判断是否为男女,肿瘤问题等等。

对于softmax可以理解为就是解决多分类问题,将多分类问题结果通过概率的形式展现出来。

二,softmax是什么?

如果要说明softmax是什么的问题,就不得不提那种是非softmax的形式,举个例子,例如ReLu函数就是一种非softmax,而是一种hardmax。对于多分类问题(这里讨论的是两种分类以上),我么想要得到的信息是对于每种可能类别的可信度。即对每种可能结果赋予一个概率值。

下面给出softmax的定义:
在这里插入图片描述
z i z_i zi为第i个节点的输出值,C为节点的个数,可能输出结果的总数(分类类别数)。
通过上例中就可以将多分类问题的输出值(无论是多大)转化为范围在[0, 1]和为1的概率分布。

三,为什么 使用 e x e^x ex

认为最主要的是 对于 e x e^x ex,随着x的不断上升,斜率在不断的增大。当我们在x上有一点微小的变化时,都会导致y上的变化值较大。能够将输出的数值拉开距离,比较好的区分开来。
还有一个优点是在bp网络中求梯度,和使用各种梯度下降法去优化参数的时候, e x e^x ex求导为本身。
在这里插入图片描述

在pytroch中,Softmax与交叉熵损失函数同时实现。

实现

def softmax(X):
    """
    :param X:
    :return:
    """
    # 对向量中的每一个求他 e^x的值
    X_exp = torch.exp(X)
    # 对其进行一阶求和
    partition = X_exp.sum(1, keepdim=True) # 对求出的值任然保持维度
    return X_exp / partition #这里利用了一个广播机制, 将所有的数都进行除法的运算

def net(X):
    # -1
    return softmax(torch.matmul(X.reshape((-1, W.shape[0])), W) + b)

总结

如果模型输出为非互斥类别,且可以同时选择多个类别,则采用Sigmoid函数计算该网络的原始输出值。如果模型输出为互斥类别,且只能选择一个类别,则采用Softmax函数计算该网络的原始输出值。


参考:
[1] https://zhuanlan.zhihu.com/p/105722023
[2] http://www.noobyard.com/article/p-voihadih-qc.html
[3] https://www.bilibili.com/video/BV1K64y1Q7wu?from=search&seid=9124491475035014829&spm_id_from=333.337.0.0
[4] https://blog.csdn.net/bitcarmanlee/article/details/82320853

  • 9
    点赞
  • 90
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值