Loss函数通常作用于一个batch
在计算loss时,我们不会用一条数据去求梯度,进行优化。这样会导致loss波动较大,而且不利于发挥计算机并行计算的能力。我们会选择一个batch的数据,用其均值求梯度,进行优化
# 求batch内的均值
cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y), reduction_indices=[1]))
作者:纵横
链接:https://www.zhihu.com/question/27700702/answer/459971765
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。