卷积神经网络中全连接层、softmax与softmax loss理解

最新推荐文章于 2024-06-11 16:43:37 发布

ImDePanDa

最新推荐文章于 2024-06-11 16:43:37 发布

阅读量1.5w

点赞数 31

分类专栏：学习笔记文章标签： softmax 深度学习卷积网络

本文链接：https://blog.csdn.net/ImDePanDa/article/details/90262629

版权

学习笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

一般一个CNN网络主要包含卷积层，池化层，全连接层，损失层等。
卷积层与池化层在本篇中不做多理解，之后有时间再记录一下，本篇着重讲一下全连接层与损失层。
——————————————————————————————————————
全连接层：
W为全连接层的参数，X是全连接层的输入，也就是特征，经上层卷积或者池化层输出。
从图中可以看出X是NX1的向量，这是怎么得到的呢？
这个输入X就是由全连接层前面多个卷积层和池化层处理后得到的，假设全连接层前面连接的是一个卷积层，这个卷积层的num output是100，就是卷积之后输出一百张不同的特征图。每个特征的大小是4X4，那么在将这些特征输入给全连接层之前会将这些特征flat成NX1的向量,例如此时就应该是N=1600（4X4X100 ）。
再来看W，W是全连接层的参数，是个TXN的矩阵，这个N和X的N对应，T表示类别数，比如你是7分类，那么T就是7。我们所说的训练一个网络，对于全连接层而言就是寻找最合适的W矩阵。
——————————————————————————————————————
Softmax层:
因此全连接层就是执行WXX得到一个TX1的向量（也就是图中的logits[TX1]），这个向量里面的每个数都没有大小限制的，也就是从负无穷大到正无穷大。然后如果你是多分类问题，一般会在全连接层后面接一个softmax层，这个softmax的输入是TX1的向量，输出也是TX1的向量（也就是图中的prob[TX1]，这个向量的每个值表示这个样本属于每个类的概率），只不过输出的向量的T个值的大小范围为0到1,分别表示各个类别的概率。
softmax的表达式如下所示，
在这里插入图片描述
在经过softmax层输出后，得到一个TX1的向量，其中每一个值表示输入对应所有样本的概率值。
举个例子：
假设你的WX=[1,2,3]，那么经过softmax层后就会得到[0.09,0.24,0.67]，这三个数字表示这个样本属于第1,2,3类的概率分别是0.09,0.24,0.67。
——————————————————————————————————————
Softmax loss公式如下，
在这里插入图片描述
这边别的都好理解，只有y有点问题。
y是一个1XT的向量，里面的T个值，而且只有1个值是1，其他T-1个值都是0。那么哪个位置的值是1呢？答案是真实标签对应的位置的那个值是1，其他都是0。
举个例子：
假设一个5分类问题，然后一个样本I的标签y=[0,0,0,1,0]，也就是说样本I的真实标签是4，假设模型预测的结果概率（softmax的输出）p=[0.1,0.15,0.05,0.6,0.1]，可以看出这个预测是对的，那么对应的损失L=-log(0.6)，也就是当这个样本经过这样的网络参数产生这样的预测p时，它的损失是-log(0.6)。那么假设p=[0.15,0.2,0.4,0.1,0.15]，这个预测结果就很离谱了，因为真实标签是4，而你觉得这个样本是4的概率只有0.1（远不如其他概率高，如果是在测试阶段，那么模型就会预测该样本属于类别3），对应损失L=-log(0.1)。那么假设p=[0.05,0.15,0.4,0.3,0.1]，这个预测结果虽然也错了，但是没有前面那个那么离谱，对应的损失L=-log(0.3)。我们知道log函数在输入小于1的时候是个负数，而且log函数是递增函数，所以-log(0.6) < -log(0.3) < -log(0.1)。简单讲就是你预测错比预测对的损失要大，预测错得离谱比预测错得轻微的损失要大。

参考博文：
https://blog.csdn.net/u014380165/article/details/77284921

ImDePanDa

关注

31
点赞
踩
78

收藏

觉得还不错? 一键收藏
1
评论
卷积神经网络中全连接层、softmax与softmax loss理解

一般一个CNN网络主要包含卷积层，池化层，全连接层，损失层等。卷积层与池化层在本篇中不做多理解，之后有时间再记录一下，本篇着重讲一下全连接层与损失层。——————————————————————————————————————全连接层：W为全连接层的参数，X是全连接层的输入，也就是特征，经上层卷积或者池化层输出。从图中可以看出X是N1的向量，这是怎么得到的呢？这个输入X就是由全连接层前...
复制链接

扫一扫