动手学PyTorch | (10) Dropout(丢弃法)

除了前⼀节介绍的权􏰀重衰减以外,深度学习模型常常使用丢弃法(dropout)来应对过拟合问题。丢弃法有⼀些不同的变体。本节中提到的丢弃法特指倒置丢弃法(inverted dropout)。

目录

1. 方法

2. 从0开始实现

3. 简洁实现

4. 小结


1. 方法

回忆⼀下,(多层感知机)的图示描述了一个单隐藏层的多层感知机。其中输⼊个数为4,隐藏单元个数为5,且隐藏单元h_i(i=1,...,5)的计算表达式为:

这里\phi是激活函数,x_1,...,x_4是输入,隐藏单元i的权重参数为w_{1i},...,w_{4i},偏差参数为b_i.当对该隐藏层使⽤丢弃法时,该层的隐藏单元将有一定概率被丢弃掉。设丢弃概率为p,那么有p的概率 h_i(i=1,...,5)会被清零,有1-p的概率h_i(i=1,...,5)会除以1-p做拉伸。丢弃概率是丢弃法的超参数。具体来说,设随机变量\xi _i为 0和1的概率分别为p和1-p。使⽤丢弃法时我们计算新的隐藏单元h_i':

由于E(\xi_i)=1-p(2项分布),因此:

即丢弃法不改变其输⼊的期望值。让我们对下图中的隐藏层使⽤丢弃法,⼀种可能的结果如下所示,其中h_2,h_5被清零。这时输出值的计算不再依赖h_2,h_5,在反向传播时,与这两个隐藏单元相关的权􏰀重的梯度均为0.由于在训练中隐藏层神经元的丢弃是随机的,即h_1,...,h_5都有可能被清零,输出层的计算⽆无法过度依赖h_1,...,h_5中的任一个,从⽽在训练模型时起到正则化的作⽤用,并可以用来应对过拟合。在测试模型时,我们为了拿到更加确定性的结果,⼀般不使用丢弃法。

2. 从0开始实现

根据丢弃法的定义,我们可以很容易地实现它。下面的dropout函数将以drop_prob的概率丢弃X中的元素。

%matplotlib inline
import torch
import torch.nn as nn
import numpy as np
import sys
sys.path.append(".") 
import d2lzh_pytorch as d2l

def dropout(X, drop_prob):
    X = X.float()
    assert 0 <= drop_prob <= 1
    keep_prob = 1 - drop_prob
    # 这种情况下把全部元素都丢弃
    if keep_prob == 0:
        return torch.zeros_like(X)
    mask = (torch.rand(X.shape) < keep_prob).float()
    
    return mask * X / keep_prob

我们运行⼏个例子来测试一下dropout函数。其中丢弃概率分别为0、0.5和1.

X = torch.arange(16).view(2, 8)
dropout(X, 0)

dropout(X, 0.5)

dropout(X, 1.0)

  • 定义模型参数

实验中,我们依然使(softmax回归的从零开始实现)中介绍的Fashion-MNIST数据集。我们将定义⼀个包含两个隐藏层的多层感知机,其中两个隐藏层的输出个数都是256。

num_inputs, num_outputs, num_hiddens1, num_hiddens2 = 784, 10, 256, 256

W1 = torch.tensor(np.random.normal(0, 0.01, size=(num_inputs, num_hiddens1)), dtype=torch.float, requires_grad=True)
b1 = torch.zeros(num_hiddens1, requires_grad=True)
W2 = torch.tensor(np.random.normal(0, 0.01, size=(num_hiddens1, num_hiddens2)), dtype=torch.float, requires_grad=True)
b2 = torch.zeros(num_hiddens2, requires_grad=True)
W3 = torch.tensor(np.random.normal(0, 0.01, size=(num_hiddens2, num_outputs)), dtype=torch.float, requires_grad=True)
b3 = torch.zeros(num_outputs, requires_grad=True)

params = [W1, b1, W2, b2, W3, b3]
  • 定义模型

下面定义的模型将全连接层和激活函数ReLU串起来,并对每个激活函数的输出使用丢弃法。我们可以分别设置各个层的丢弃概率。通常的建议是把靠近输⼊层的丢弃概率设得⼩一点。在这个实验中,我们把 第⼀个隐藏层的丢弃概率设为0.2,把第⼆二个隐藏层的丢弃概率设为0.5。我们可以通过参 数is_training函数来判断运行模式为训练还是测试,并只需在训练模式下使用丢弃法。

drop_prob1, drop_prob2 = 0.2, 0.5

def net(X, is_training=True):
    X = X.view(-1, num_inputs)
    H1 = (torch.matmul(X, W1) + b1).relu()
    if is_training:  # 只在训练模型时使用丢弃法
        H1 = dropout(H1, drop_prob1)  # 在第一层全连接后添加丢弃层
    H2 = (torch.matmul(H1, W2) + b2).relu()
    if is_training:
        H2 = dropout(H2, drop_prob2)  # 在第二层全连接后添加丢弃层
    return torch.matmul(H2, W3) + b3

我们在对模型评估的时候不应该进行丢弃,所以我们修改一下d2lzh_pytorch中的evaluate_accuracy函数:

# 可以把本函数保存在d2lzh_pytorch
def evaluate_accuracy(data_iter, net):
    acc_sum, n = 0.0, 0
    for X, y in data_iter:
        if isinstance(net, torch.nn.Module):
            net.eval() # 评估模式, 这会关闭dropout
            acc_sum += (net(X).argmax(dim=1) == y).float().sum().item()
            net.train() # 改回训练模式
        else: # 自定义的模型
            if('is_training' in net.__code__.co_varnames): # 如果有is_training这个参数
                # 将is_training设置成False
                acc_sum += (net(X, is_training=False).argmax(dim=1) == y).float().sum().item() 
            else:
                acc_sum += (net(X).argmax(dim=1) == y).float().sum().item() 
        n += y.shape[0]
    return acc_sum / n

将上述evaluate_accuracy写回d2lzh_pytorch后要重启一下jupyter kernel才会生效。

  • 训练和测试模型

这部分与之前多层感知机的训练和测试类似。

num_epochs, lr, batch_size = 5, 100.0, 256
loss = torch.nn.CrossEntropyLoss()
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, params, lr)

3. 简洁实现

在PyTorch中,我们只需要在全连接层后添加Dropout层并指定丢弃概率。在训练模型时,Dropout 层将以指定的丢弃概率随机丢弃上⼀层的输出元素;在测试模型时(即 model.eval()后), Dropout层并不发挥作用。

net = nn.Sequential(
        d2l.FlattenLayer(),
        nn.Linear(num_inputs, num_hiddens1),
        nn.ReLU(),
        nn.Dropout(drop_prob1),
        nn.Linear(num_hiddens1, num_hiddens2), 
        nn.ReLU(),
        nn.Dropout(drop_prob2),
        nn.Linear(num_hiddens2, 10)
        )
#手动初始化参数
for param in net.parameters():
    nn.init.normal_(param, mean=0, std=0.01)

下⾯训练并测试模型。

optimizer = torch.optim.SGD(net.parameters(), lr=0.5)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, None, None, optimizer)

由于这⾥使⽤的是PyTorch的SGD⽽不是d2lzh_pytorch⾥面手写的sgd,所以就不存在学习率看起来很⼤的问题了。

 

4. 小结

1)我们可以通过使⽤用丢弃法应对过拟合。

2)丢弃法只在训练模型时使⽤用。

 

 

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
PyTorch中的Dropout层是一种正则化技术,用于减少神经网络的过拟合现象。Dropout层在训练过程中随机地将一部分神经元的输出置为0,以一定的概率(通常为0.5)来减少神经元之间的依赖关系,从而提高模型的泛化能力。 在PyTorch中,可以通过torch.nn.Dropout类来实现Dropout层。具体使用方如下: ```python import torch import torch.nn as nn # 创建一个具有Dropout层的神经网络 class Net(nn.Module): def __init__(self): super(Net, self).__init__() self.fc1 = nn.Linear(10, 20) self.dropout = nn.Dropout(p=0.5) self.fc2 = nn.Linear(20, 2) def forward(self, x): x = self.fc1(x) x = self.dropout(x) x = self.fc2(x) return x # 实例化网络 net = Net() # 使用Dropout层进行前向传播 input_data = torch.randn(32, 10) # 输入数据 output = net(input_data) # 前向传播 ``` 在上面的例子中,我们创建了一个具有Dropout层的神经网络。在网络的初始化过程中,我们使用了nn.Dropout(p=0.5)来定义了一个Dropout层,其中p表示神经元被置为0的概率。在网络的前向传播过程中,我们调用dropout方对输入进行处理,得到输出结果。 注意,在模型的训练过程中,需要使用net.train()来启用Dropout层,而在模型的测试过程中,需要使用net.eval()来关闭Dropout层。这是因为在训练过程中,Dropout层会随机地将部分神经元置为0,而在测试过程中,我们希望保留所有的神经元输出,以评估模型的性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值