为什么cnn的network训练时用batch_size随机批量梯度下降训练,而预测时可以接受只有一张图片的输入呢?
在批量梯度下降中,权重的更新公式是:w = w + delta(w), 而delta(w) = -eta * delta(J(w)), 其中eta为学习率,delta(J(w))为所有样本的损失函数计算出来的梯度,注意,是所有样本,也就是批量梯度下降是要等到所有样本的梯度都计算出来后再加起来更新参数,这样,当整个数据集很大的时候,就不适用,而随机梯度下降就是让delta(J(w))为随机的单个...
原创
2018-06-08 10:20:12 ·
3293 阅读 ·
3 评论