超参数重要度: 1,学习率lr 2,动量参数beta(一般为0.9),batchsize大小,隐藏层神经单元个数 3,学习率衰减,隐藏层的层数 4,如果使用的是adam优化,则就是其参数beta1,beta2,epsilon