秃姐学AI系列之：丢弃法 + 代码实现 | 数值稳定性

import torch

def dropout_layer(X, droupout):
    assert 0 <= dropout <= 1    # 一个断言，确定dropout率保持在正常区间
    if dropout == 1:
        return torch.zero_like(X)    # 直接返回全 0
    if dropout == 0:
        return X    # 不用丢，直接返回X
    # 随机生成一个0~1的向量，根据是否大于dropout生成一个布尔值（大于赋 1，小于赋 0）
    mask = (torch.randn(X.shape) > dropout).float()
    return mask * X / (1.0 - dropout)

为什么代码中挑出mask之后不直接 X[mask] = 0，来将值全部设成0？

因为无论对于GPU还是CPU来说，做乘法远远比去选一个元素来的快

定义具有两个隐藏层的多层感知机，每个隐藏层包含256个单元

num_inputs, num_outputs, num_hiddens1, num_hiddens2 = 784, 10, 256, 256
dropout1, dropout2 = 0.2, 0.5

class Net(nn.Module):
    def __init__(self, num_inputs, num_outputs, num_hiddens1, num_hiddens2, is_training = True):
        super(Net, self).__init__()
        self.num_inputs = num_inputs
        self.training = is_training
        self.lin1 = nn.Linear(num_inputs, num_hiddens1)
        self.lin2 = nn.Linear(num_hiddens1, num_hiddens2)
        self.lin3 = nn.Linear(num_hiddens2, num_outputs)
        self.relu = nn.ReLU()

def forward(self, X):
    H1 = self.relu(self,lin1(X.reshape((-1, self.num_inputs))))
    if self.training == True:
        H1 = dropout_layer(H1, dropout1)    # dropout一般作用在全连接隐藏层的输出上
    H2 = self.relu(self.lin2(H1))
    if self.training == True:
        H2 = dropout_layer(H2, dropout2)
    out = self.lin3(H2)    # 注意！！输出层是不作用dropout的！
    return out

net = Net(num_inputs, num_outputs, num_hiddens1, num_hiddens2)

简洁实现

net = nn.Sequential(
    nn.Flatten(), nn.Linear(784, 256), nn.ReLU(),
    nn.Dropout(dropout1), nn.Linear(256, 256), nn.ReLU(),
    nn.Dropout(dropout2), nn.Linear(256, 10)
)

def init_weights(m):
    if type(m) == nn.Linear:
        nn.init.normal_(m.weight, std = 0.01)

net.apply(init_weights)

QA

dropout随机置 0 对求梯度和反向传播的影响是什么？

dropout置 0 的地方梯度就是 0，但是未置 0 的地方对应乘了一个数放大了，所以dropout对于梯度是一个对称的函数，而且置 0 的那些对应的权重这一轮就不会更新。

dropout如何保证结果的正确性和可重复性？

所谓正确性，机器学习没有正确性hhh只有效果好不好。所以机器学习，特别是神经网络，你哪怕逻辑出了很大的bug，甚至可能看不出来，最终对acc的影响也就一个点不到。

对于dropout来说，你下次丢弃的东西可能就不是这些了，不过是dropout，对于整个神经网络来说可重复性都是一个很难的问题。或者你可以固定一个随机种子random seed，那你的drop就是可重复的，但是你整个网络的随机性还是挺重的，比如初始权值也是随机的，甚至你的cudnn每次算的都是不太一样的，加的顺序不一样出来的数就会不一样...几乎不能重复，其实没啥必要可重复，在一个范围内就行了。

机器学习的六字真言：越随机越稳定！！