1、学习速率。首先设学习速率为一个较大的值,确保training cost在不断下降。当accuracyy在n个epoch内不再增加时,使得学习速率减小一半。重复迭代,直到学习速率变成原来的1/1024。
2、学习速率要根据训练cost调。但是网络层数和神经元数目,mini-batch size要根据验证集的acc调。
3、关于正则项系数。可以先设为0,选好learning rate,再将正则系数增大或者缩小十倍粗调。大概确定数量级后,再微调。
4、关于mini-batch,如果太小,和On-line learning很接近,加速效果可能不明显。如果太大,权重更新不够频繁,优化过程较长。因此,可以画出验证集准确率和真正时间的曲线,确定一个acceptable mini-batch。
5、避免过拟合的方法有很多:early stopping、数据集扩增(Data augmentation)、正则化(Regularization)包括L1、L2(L2 regularization也叫weight decay),dropout。