【人工智能与深度学习】算法优化一:梯度下降算法和自适应优化算法 梯度下降优化算法 梯度下降 随机梯度下降 小批次处理 动量 直观 实用指南 为什么动量有用? 加速 噪声平滑 自适应优化算法 均方根优化(RMSprop) 带动量学习率自适应 (ADAM) 实用建议 归一化层 归一化操作 为什么归一化有效?