dropout
通过每次训练时遗忘掉部分特征,使得模型不会过分依赖局部的特征,从而提高模型的泛化能力
随机梯度下降函数
通过函数不断调整学习率,a,b两个超参数。
批量梯度下降
多个方向同时调整,得到最后的结果更准确,运算更耗时
随机梯度下降
单一方向调整,每次的下降方向并不确定,下降的步长即学习率应该逐步变小,避免接近准确值时跳过。
这里使用
学习率=a/(item+b)
item为循环的次数,通过让其作为分母,可以使得随着次数增加,学习率减小即步长减小
b为第一个超参数,目的是为了避免前几次学习率下降的速度过快
a为第二个超参数,使得学习率的调整更加灵活