梯度下降 沿梯度方向将增加损失函数值 学习率:步长的超参数 超参数:需要人为指定的值 学习率的选择: 小批量随机梯度下降 在整个训练集上算梯度太贵,一个深度神经网络模型可能需要数分钟至数小时我们可以随机采样b个样本来近似损失 b是批量大小 批量大小的选择: 不能太小:每次计算量太小,不适合并行来最大利用计算资源 不能太大:内存消耗增加,浪费计算 总结 梯度下降通过不断沿着反梯度方向更新参数求解小批量随机梯度下降是深度学习默认的求解算法两个重要的超参数是批量大小和学习率