梯度下降训练策略 本文意在干脆地写明白梯度下降训练策略的优缺点 批次梯度下降 (Batch Gradient Descent ) 利用全部训练数据集计算损失函数的梯度来执行一次参数更新 θ ⇐ θ − η ⋅ ∇ J ( θ ) \theta \Leftarrow \theta - \eta {\rm{\cdot}}\nabla J(\theta ) θ⇐θ−η⋅∇J(θ) 缺点: 更新较慢 不能在线更新模型 优点 对凸的损失函数可保证收敛到全局最小值;对非凸的损失函数可收敛到局部最小值