作者:傅朝友 (博客 Jimmyfu_ )
本博客转自本人知乎。
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
首先明确一点:数据读取层是 data 之源,前向传播 data 得到 预测概率密度 和 loss ;损失层是 diff 之源 , 后向传播 diff 更新权值。
本文只讲算法推导和思路,具体实现请查看 Caffe 源码。
假设: nm
i
j
loss层 共四层,其中 j 和 i 是全连接层,m 为 ReLu 层,n 可以不用管
--------------------------------------
loss 层:计算得到 <