记录一些常见的超参数
-
learning rate
即学习率,表示更新梯度的速度,学习率过小参数更新会很慢,过大又容易跳过最大值
上图学习率设置过小,学习会很慢,使得训练时间过长
上图学习率太大,从而使得跳过了最低点 -
batch
batch,指一批,即每次喂入模型的图像数量,如10000张图像,设置batch=10,就是每次10张图片一起训练就是一个batch -
epoch
一个epoch是指学习中所有训练数据均被使用过一次时的更新数据。如如果10000张图像,batch=10,那么训练了1000次,即所有图片都进行训练了一次就是一个epoch。通常可以以epoch为单位进行准确率的监控。 -
momentum
momentum意思为动量,也可以从物理的角度理解,在梯度下降时施加一个另外的力,在某些情况下可以起到加速的效果。
-
weight decay
weight decay,权值衰减,一般用来防止过拟合,在梯度更新时加入一个正则化的惩罚,常见的有L2正则化,当然也有其他的正则化惩罚。