重要性:学习率>正则值>dropout
学习率:0.001,0.01,0.1,1,10 …….以10为阶数尝试
小数据集上合适的参数大数据集上一般不会差,可以先减少训练类别。
欠拟合:
表现形式:训练集,测试集准确率都很低
解决办法:增加网络层数,增加节点数,减少dropout值,减少L2正则值等等
过拟合:
表现形式:训练集准确率较高,测试集准确率比较低
解决办法:增加数据、数据增强、参数范数惩罚L1、L2、提前终止、增加dropout值、BatchNormalization