代码部分:全连接层网络_iwill323的博客-CSDN博客 目录 正则化 问题引出 正则化作用 L1和L2正则化 优化算法 随机梯度下降Stochastic Gradient Descent (SGD) 存在的问题 SGD + Momentum 原理 参数处理 pytorch中的SGD + Momentum Nesterov Momentum 原理 评价 Adagrad 原理 优缺点 RMSprop pytorch中的RMSprop Adam 公式