Softmax vs. Softmax-Loss: Numerical Stability

最新推荐文章于 2017-07-01 15:58:52 发布

iamzhangzhuping

最新推荐文章于 2017-07-01 15:58:52 发布

阅读量789

点赞数

分类专栏： Deep Learning Caffe学习

本文链接：https://blog.csdn.net/iamzhangzhuping/article/details/50759246

版权

Caffe学习同时被 2 个专栏收录

44 篇文章 0 订阅

订阅专栏

Deep Learning

39 篇文章 0 订阅

订阅专栏

参考博文《Softmax vs. Softmax-Loss: Numerical Stability》
Softmax vs. Softmax-Loss: Numerical Stability

其中有关键的几段话：

整个网络的参数的 gradient 的计算方法是从顶层出发向后，在层的时候，会拿到从得到的也就是，然后需要做两个计算：首先是自己层内的参数的 gradient，比如如果是一个普通的全连通内积层，则会有参数和 bias 参数，根据刚才的 Chain Rule 式子直接计算就可以了，如果 层没有参数 (例如 Softmax 或者 Softmax-Loss 层就是没有参数的。)，这一步可以省略；其次就是“向后传递”的步骤，同样地，根据 Chain Rule 我们可以计算. 即当对输入数据bottom求导时，仅仅是为了“向后传递”，这个导数并不参与该层的参数的gradient descent 参数更新，因为该层就没有参数，如何来更新
我们回到 Softmax-Loss 层，由于该层没有参数，我们只需要计算向后传递的导数就可以了，此外由于该层是最顶层，所以不用使用 chain rule 就可以直接计算对于最终输出（loss）的导数。回忆一下我们刚才的 notation，Softmax-Loss 层合在一起的时候我们用来表示，它有两个输入，一个是 true label ，直接来自于最底部的数据层，并且我们不需要对数据层做任何的 gradient descent 参数更新，所以我们不需要像那个输入进行 back propagation，但是另外一个输入则来自于下面的计算层，对于 Logistic Regression 或者普通的 DNNs 下面会是一个全连通的线性内积层，不过具体是什么我们也不需要关心，只要把计算出来丢给下面让他们自己去算后面的就好了。
和刚才的结果一样的，看来我们求导没有求错。虽然最终结果是一样的，但是我们可以看出，如果分成两层计算的话，要多算好多步骤，除了计算量增大了一点，我们更关心的是数值上的稳定性。由于浮点数是有精度限制的，每多一次运算就会多累积一定的误差，注意到分成两步计算的时候我们需要计算这个量，如果碰巧这次预测非常不准，的值，也就是正确的类别所得到的概率非常小（接近零）的话，这里会有 overflow 的危险。下面我们来实际试验一下，首先定义好两种不同的计算函数：

iamzhangzhuping

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Softmax vs. Softmax-Loss: Numerical Stability

参考博文《Softmax vs. Softmax-Loss: Numerical Stability》 Softmax vs. Softmax-Loss: Numerical Stability其中有关键的几段话：整个网络的参数的 gradient 的计算方法是从顶层出发向后，在层的时候，会拿到从得到的也就是，然后需要做两个计算：首先是自己层内的参数的 gradient，比如如果是
复制链接

扫一扫