一直以为:输入一张数据,就前向传播,然后反向传播更新权重。(X) 正确理解: 梯度下降:损失函数定义在所有样本上。每次都是在所有样本上作梯度下降。 随机梯度下降(SGD): 每次随机选择一个样本,损失函数定义在一个样本上。每次都是在一个样本上作梯度下降。