caffe Softmax的实现

最新推荐文章于 2024-08-17 20:13:54 发布

singing1001

最新推荐文章于 2024-08-17 20:13:54 发布

阅读量1.4k

点赞数

分类专栏： caffe

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qingsong1001/article/details/82254412

版权

caffe 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

Softmax的实现
Softmax的基础知识

在数学中，softmax函数，或称为“归一化指数函数”，是logistic函数的一种泛化；也就是说，它是logistic函数的一个子类。它把logistic函数的任意实数值的K维向量 z 变形为一个实数值的K维向量，的每个元素的范围(0,1)且满足所有元素之和为1.因此，它变成了一个K-1维的空间，有一个维度丢失了。

在概率论中，softmax函数的输出可以用于标识一个分类器的分布，那就是，K个不同可能性的输出来标识概率的分布。实际上，它是分类概率分布的“gradient-log-normalizer”。Softmax函数也是LogSumExp函数的梯度。

Softmax被广泛用于大量的多类分类方法中，例如，多项logistic 回归也称为“softmax 回归”，多类线性判别分析，朴素贝叶斯分类器，和人工神经网络中。特别是，在多项logistic 回归和多类线性判别分析中，函数的输入是K个不同的线性函数的结果，在给定样本向量x和权重向量w时，对于第j个类别的预测的概率如下：

它可以被看做是K个线性函数与softmax函数的组合。这里，标识x和w的內积。

Softmax函数经常被用于基于神经网络的分类器的最后一层。这些网络通常在给定一个多项logistic 回归的非线性变量下，通过一个log loss 方法(或者交叉熵方法)来完成训练。

既然函数映射了一个向量和一个特定的index到一个实数值，那么，导数肯定要把index考虑进去，公式如下：

，其中，

1. Caffe的Softmax层的实现

关于caffe的softmax和softmaxwithloss层的数学解释，下面这位作者写的很清晰，点赞！

https://www.zhihu.com/people/wang-jun-nan-72-19/answers

抄录如下：

***************************抄录的起始位置***************************

假设z是softmaxwithloss层的输入，f(z)是softmax的输出，即

y是输入样本z对应的类别，y=0,1,...,N对于z，其损失函数定义为

展开上式：

对上式求导，

有梯度下降方向即为

这就是logistic函数的特性，

增加关于softmax的反向传播说明如下：

设softmax的输出为a,输入为z，损失函数为l，则

其中，

在caffe中是top_diff，
a为caffe中得top_data,

因此，需要计算的是。

对求导得，

， if i != k;

, if i == k.

于是,

;整理一下得到,

其中,表示将标量扩展为n维向量, 表示向量按元素相乘。

***************************抄录的结束位置***************************

Softmax层的前向和反向传播代码解析：

以10个class的分类器为例。

前向传播求概率向量

主要实现的过程如下：

从10个输入channels中获取最大值，赋给scale_data。
把10个输入的channel的值-scale_data，赋值给 top_data;(保证所有这10个值<=0)
对top_data做指数运算，赋值给top_data；(保证所有这10个值在区间[0,1])
对top_data求和，结果赋值给scale_data。(获取所有这10个值和)
对top_data这10个值分别除以scale_data，赋值给top_data；(保证这10个值的和为1；每个值对应于每个class的概率)。

反向传播求导数向量

对top_diff向量(10个值)与top_data向量(10个值)做点乘，公式如下，得到的值赋给scale_data。

对top_diff向量(10个值)每个都减去scale_data，得到的值赋值给bottom_diff向量。
把bottom_diff向量每个都乘以对应的top_data，赋值给bottom_diff向量。该向量就是bottom的导数。

基本公式如下：

SoftmaxWithLossLayer的前向传播和反向传播的解析

前向传播求loss

遍历所有batchSize内每个样本的10个输出channels的prob，找到与label对应的那个的概率进行损失计算，并跟之前的loss相加。
把得到的loss之和除以batchSize，得到loss。
把得到的loss保存到输出blob top[0]中。

反向传播求bottom_diff

遍历所有batchSize内每个样本的10个输出channels，找到与label对应的那个概率做减一操作，即

对于跟label不一致的channel求导，保持不变。

得到的结果就是bottom diff。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

singing1001 CSDN认证博客专家 CSDN认证企业博客

码龄16年

91: 原创

5万+: 周排名

160万+: 总排名

24万+: 访问

: 等级

2680: 积分

37: 粉丝

58: 获赞

36: 评论

278: 收藏

私信

关注

热门文章

分类专栏

最新评论

ncnn2mem
一个朴实无华的菜鸡: 感觉博主说的将proto转换为二进制文件容易误导。使用的指令应该是ncnn2mem resnet.param resnet.bin resnet.id.h resnet.mem.h
Ubuntu中安装流程图工具Dia
没有好名字也可以记住我: sudo apt-get autoremove dia.命令多了一个小数点，会把系统里面所有带有dia字母的软件和包全部删除
Ubuntu中安装流程图工具Dia
singing1001: 应该不至于吧，不过我确实没有试怎么卸载，我主要为了收藏中文输入法问题。如果真的有问题那真是非常抱歉了，我也是转载的。
Ubuntu中安装流程图工具Dia
没有好名字也可以记住我: 你这个卸载方式，直接tm让我把系统重装了
YUV 格式详解，只看这一篇就够了
Zhishuifuyue: 说是说清楚了，好像还是不太好理解好记忆

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。