一.学习率(learning_rate) 二.正则化(regularization) L1正则化 L2正则化(权重衰减) 1.权重衰减是为了防止过拟合。 [参考] 三.冲量(momentum) [参考1]