pytorch-权重衰退（weight decay）和丢弃法（dropout）

本文链接：https://blog.csdn.net/qq_51333166/article/details/125594495

解决过拟合的常用两种方法：

1、权重衰退

常用方法：L1,L2正则化

L2正则化：
Alt
一个神经网络训练至loss收敛时，会有多个w，b符合条件。如果w过大，则输入层的噪声将会被放大，导致结果也会不准确，因此需要尽量减少w的值。正则化通过为模型的损失函数加入惩罚项使得学出的模型参数值比较小。

2、丢弃法（只能用于全连接层）

Alt
dropout不改变其输入的期望值，只在模型训练的时候使用
有p的概率，hi会清零
有1-p的概率，hi会除以1-p做拉伸
Alt
Alt

import torch
from torch import nn
from d2l import torch as d2l
dropout1, dropout2 = 0.2, 0.2
net = nn.Sequential(nn.Flatten(),
        nn.Linear(784, 256),
        nn.ReLU(),
        # 在第一个全连接层之后添加一个dropout层
        nn.Dropout(dropout1),
        nn.Linear(256, 256),
        nn.ReLU(),
        # 在第二个全连接层之后添加一个dropout层
        nn.Dropout(dropout2),
        nn.Linear(256, 10))

def init_weights(m):
    if type(m) == nn.Linear:
        nn.init.normal_(m.weight, std=0.01)

net.apply(init_weights);

num_epochs, lr, batch_size = 10, 0.5, 256
loss = nn.CrossEntropyLoss(reduction='none')
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
trainer = torch.optim.SGD(net.parameters(), lr=lr)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)