为什么要正则化
希望模型在训练集上和测试集上都效果好,即减小两者的方差。
正则化
权值衰减(L2正则项)
L2 正则项又叫做 weight decay (权值衰减)
optim_wdecay = torch.optim.SGD(model.parameters(), lr=lr_init, momentum=0.9, weight_decay=1e-2)
Dropout
Dropout是指在神经网络的训练过程中,按照一定的概率将部分神经元从网络中丢弃,相当于从原来的网络中寻找一个更瘦的网络。在训练大型神经网络时,如果训练数据过少,很容易引起过拟合,使用Dropout来减小网络的规模,能起到很好的作用。
和加入权值衰减效果类似