Softmax?何方神圣?

本文介绍了Softmax算法,它在神经网络中用于多分类问题。通过解释Softmax层的工作原理,包括线性运算、指数运算和归一化过程,帮助理解如何将神经网络的输出转换为概率分布。最后,通过实例展示了Softmax激活函数的计算过程。
摘要由CSDN通过智能技术生成

今天,我们来一起学习一下传说中的Softmax算法。

Introduction 引入

拿目标检测或者图像识别来说。
比方说我们要识别小猫,小狗和小鸡,分别用数字“1”,“2”,“3”来表示,其他类别的用“0”来表示。

小猫 1
小狗 2
小猫 1
小狗 2
小鸡 3
奶牛 0

我们用大写的C来表示类别的数目:
C = # c l a s s = 4 C=\#class=4 C=#class=4
在我们这个例子中,有4个类别,我们将搭建一个输出层神经元数目为4的神经网络,如下图所示:
在这里插入图片描述
最后一层,也就是输出层,其神经元数目,我们用 n [ L ] n^{[L]} n[L]来表示,因为输出结果有4个类别,所以 n [ L ] = 4 n^{[L]}=4 n[L]=4
在这里插入图片描述
用红色框起来的输出层,每一个圆圈代表一个输出神经元。
我们可以假设第一个神经元是其他类型“0”,在给定X的输入下的输出:其他类型用 P ( 其 他 ∣ X ) P(其他|X) P(X)表示,第二个是小猫 P ( 小 猫 ∣ X ) P(小猫|X) P(X),第三个是小猫 P ( 小 狗 ∣ X ) P(小狗|X) P(X),第四个是小猫 P ( 小 鸡 ∣ X ) P(小鸡|X) P(X)
输出 y ^ \hat{y} y^是一个 4 × 1 4\times1 4×1的向量。

Softmax Layer 柔性最大值传输函数层

在这里插入图片描述
现在,我们假设最后一层是L层,那么利用《神经网络和深度学习——迈克尔尼尔逊》中的关于权值和阈值的线性运算操作,我们可以得到:
z [ L ] = ω [ L ] a [ L ] + b [ L ] z^{[L]}=ω^{[L]}a^{[L]}+b^{[L]}

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值