调参经验分享 1.样本要随机化,防止大数据淹没小数据。 2.样本要做归一化(具体参考为何需要归一化)。 3.激活函数要根据样本输出选择(多层神经网络一般用relu)。 4.mini batch很重要,几百是比较合适的(数据量很大的情况下)。 5.学习速率(learning rate)很重要,比如一开始可以将lr设置为0.01,然后运行到loss不怎么降的时候,学习率除以10,接着训练。 6.权重初始化,可用高斯分布乘以一个很小的数(详情自行搜索权值初始化)。 7.Adam收敛速度的确要快一些,可结果往往没有sgd+momentum的解好(如果模型比较复杂的话,sgd是比较难训练的,这时adam的优势就比较明显了)。 8.Dropout的放置位置以及大小非常重要。 9.early stopping,发现val_loss没更新,就尽早停止。