本文节选自CVer《深度学习速查词典》中的一部分内容,并补充一些常见名词。
batch size
一次前向或反向传播时样本的数目,该参数受限于内存的大小。
iteration
样本传播的次数,每次传播的样本数为batch大小,注:一次样本的传播包括前向和反向传播。
epoch
所有训练样本的传播次数。例如,有1000个样本,若batch size=500,则iteration=2时完成一次epoch。
用于调节权重衰减的超参数,公式:new_weight = existing_weight — learning_rate * gradient,即梯度下降法中使用的参数。
1. momentum(动量)
用于平滑随机梯度下降法的振荡。
|
|
SGD without momentum | SGD with momentum |
2. Adam(Adaptive Moment Estimation)
用于计算参数自适应学习率的方法,效果一般优于其他自适应学习算法。
网络层参数
[convolutional] #卷积层
batch_normalize=1 #批归一化参数
filters=32 #卷积核的数量
size=3 #卷积核的大小
stride=1 #卷积步长
pad=1 #卷积时填充像素数
activation=leaky #网络的激活函数(非线性的主要根源)
[maxpool] #池化层:最大化池化
size=2 #池化核大小
stride=2 #池化步长
Dropout
是一种在深度神经网络中随机消除节点及其连接的正则化技术。它可以防止模型过拟合,同时加快深度神经网络的训练速度。
参考文献: