深度学习模型常常使用丢弃法(dropout)来应对过拟合问题。
3.13.1 方法
单隐藏层的多层感知机:其中输入个数为4,隐藏单元个数为5,且隐藏单元 h i h_i hi( i = 1 , … , 5 i=1, \ldots, 5 i=1,…,5)的计算表达式为
h i = ϕ ( x 1 w 1 i + x 2 w 2 i + x 3 w 3 i + x 4 w 4 i + b i ) , h_i = \phi\left(x_1 w{1i} + x_2 w{2i} + x_3 w{3i} + x_4 w{4i} + b_i\right), hi=ϕ(x1w1i+x2w2i+x3w3i+x4w4i+bi),
这里
ϕ
\phi
ϕ是激活函数,
x
1
,
…
,
x
4
x_1, \ldots, x_4
x1,…,x4是输入,隐藏单元
i
i
i的权重参数为
w
1
i
,
…
,
w
4
i
w{1i}, \ldots, w{4i}
w1i,…,w4i,偏差参数为
b
i
b_i
bi。
当对该隐藏层使用丢弃法时,该层的隐藏单元将有一定概率被丢弃掉。
设丢弃概率为
p
p
p,那么有
p
p
p的概率
h
i
h_i
hi会被清零,有
1
−
p
1-p
1−p的概率
h
i
h_i
hi会除以
1
−
p
1-p
1−p做拉伸。丢弃概率是丢弃法的超参数。具体来说,设随机变量
ξ
i
\xi_i
ξi为0和1的概率分别为
p
p
p和
1
−
p
1-p
1−p。使用丢弃法时我们计算新的隐藏单元
h
i
′
h_i'
hi′
h i ′ = ξ i 1 − p h i . h_i' = \frac{\xi_i}{1-p} h_i. hi′=1−pξihi.
由于 E ( ξ i ) = 1 − p E(\xi_i) = 1-p E(ξi)=1−p,因此
E ( h i ′ ) = E ( ξ i ) 1 − p h i = h i . E(h_i') = \frac{E(\xi_i)}{1-p}h_i = h_i. E(hi′)=1−pE(ξi)hi=hi.
即丢弃法不改变其输入的期望值。
由于在训练中隐藏层神经元的丢弃是随机的,即
h
1
,
…
,
h
5
h_1, \ldots, h_5
h1,…,h5都有可能被清零,输出层的计算无法过度依赖
h
1
,
…
,
h
5
h_1, \ldots, h_5
h1,…,h5中的任一个,从而在训练模型时起到正则化的作用,并可以用来应对过拟合。
在测试模型时,我们为了拿到更加确定性的结果,一般不使用丢弃法。
3.13.2 从零开始实现
根据丢弃法的定义,我们可以很容易地实现它。下面的dropout函数将以drop_prob的概率丢弃NDArray输入X中的元素。
Mxnet:
import d2lzh as d2l
from mxnet import autograd, gluon, init, nd
from mxnet.gluon import loss as gloss, nn
def dropout(X, drop_prob):
assert 0 <= drop_prob <= 1
keep_prob = 1 - drop_prob
# 这种情况下把全部元素都丢弃
if keep_prob == 0:
return X.zeros_like()
mask = nd.random.uniform(0, 1, X.shape) < keep_prob
return mask * X / keep_prob
Pytorch:
def dropout(X, drop_prob):
X = X.float()
assert 0 <= drop_prob <= 1
keep_prob = 1 - drop_prob
# 这种情况下把全部元素都丢弃
if keep_prob == 0:
return torch.zeros_like(X)
mask = (torch.rand(X.shape) < keep_prob).float()
return mask * X / keep_prob
我们运行几个例子来测试一下dropout函数。其中丢弃概率分别为0、0.5和1。
X = nd.arange(16).reshape((2, 8))#X = torch.arange(16).view(2, 8)
dropout(X, 0)
1) 定义模型参数
实验中,我们依然使用“softmax回归的从零开始实现”一节中介绍的Fashion-MNIST数据集。我们将定义一个包含两个隐藏层的多层感知机,其中两个隐藏层的输出个数都是256。
Mxnet:
num_inputs, num_outputs, num_hiddens1, num_hiddens2 = 784, 10, 256, 256
W1 = nd.random.normal(scale=0.01, shape=(num_inputs, num_hiddens1))
b1 = nd.zeros(num_hiddens1)
W2 = nd.random.normal(scale=0.01, shape=(num_hiddens1, num_hiddens2))
b2 = nd.zeros(num_hiddens2)
W3 = nd.random.normal(scale=0.01, shape=(num_hiddens2, num_outputs))
b3 = nd.zeros(num_outputs)
params = [W1, b1, W2, b2, W3, b3]
for param in params:
param.attach_grad()
Pytorch:
num_inputs, num_outputs, num_hiddens1, num_hiddens2 = 784, 10, 256, 256
W1 = torch.tensor(np.random.normal(0, 0.01, size=(num_inputs, num_hiddens1)), dtype=torch.float, requires_grad=True)
b1 = torch.zeros(num_hiddens1, requires_grad=True)
W2 = torch.tensor(np.random.normal(0, 0.01, size=(num_hiddens1, num_hiddens2)), dtype=torch.float, requires_grad=True)
b2 = torch.zeros(num_hiddens2, requires_grad=True)
W3 = torch.tensor(np.random.normal(0, 0.01, size=(num_hiddens2, num_outputs)), dtype=torch.float, requires_grad=True)
b3 = torch.zeros(num_outputs, requires_grad=True)
params = [W1, b1, W2, b2, W3, b3]
2) 定义模型
下面定义的模型将全连接层和激活函数ReLU串起来,并对每个激活函数的输出使用丢弃法。我们可以分别设置各个层的丢弃概率。通常的建议是把靠近输入层的丢弃概率设得小一点。在这个实验中,我们把第一个隐藏层的丢弃概率设为0.2,把第二个隐藏层的丢弃概率设为0.5。我们可以通过“自动求梯度”一节中介绍的is_training
函数来判断运行模式为训练还是测试,并只需在训练模式下使用丢弃法。
Mxnet:
drop_prob1, drop_prob2 = 0.2, 0.5
def net(X):
X = X.reshape((-1, num_inputs))
H1 = (nd.dot(X, W1) + b1).relu()
if autograd.is_training(): # 只在训练模型时使用丢弃法
H1 = dropout(H1, drop_prob1) # 在第一层全连接后添加丢弃层
H2 = (nd.dot(H1, W2) + b2).relu()
if autograd.is_training():
H2 = dropout(H2, drop_prob2) # 在第二层全连接后添加丢弃层
return nd.dot(H2, W3) + b3
Pytorch:
drop_prob1, drop_prob2 = 0.2, 0.5
def net(X, is_training=True):
X = X.view(-1, num_inputs)
H1 = (torch.matmul(X, W1) + b1).relu()
if is_training: # 只在训练模型时使用丢弃法
H1 = dropout(H1, drop_prob1) # 在第一层全连接后添加丢弃层
H2 = (torch.matmul(H1, W2) + b2).relu()
if is_training:
H2 = dropout(H2, drop_prob2) # 在第二层全连接后添加丢弃层
return torch.matmul(H2, W3) + b3
3) 训练和测试模型
这部分与之前多层感知机的训练和测试类似。
num_epochs, lr, batch_size = 5, 0.5, 256
loss = gloss.SoftmaxCrossEntropyLoss()#loss = torch.nn.CrossEntropyLoss()
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size,
params, lr)
3.13.3 简洁实现
在Gluon中,我们只需要在全连接层后添加Dropout层并指定丢弃概率。在训练模型时,Dropout层将以指定的丢弃概率随机丢弃上一层的输出元素;在测试模型时,Dropout层并不发挥作用。
Mxnet:
net = nn.Sequential()
net.add(nn.Dense(256, activation="relu"),
nn.Dropout(drop_prob1), # 在第一个全连接层后添加丢弃层
nn.Dense(256, activation="relu"),
nn.Dropout(drop_prob2), # 在第二个全连接层后添加丢弃层
nn.Dense(10))
net.initialize(init.Normal(sigma=0.01))
Pytorch:
net = nn.Sequential(
d2l.FlattenLayer(),
nn.Linear(num_inputs, num_hiddens1),
nn.ReLU(),
nn.Dropout(drop_prob1),
nn.Linear(num_hiddens1, num_hiddens2),
nn.ReLU(),
nn.Dropout(drop_prob2),
nn.Linear(num_hiddens2, 10)
)
for param in net.parameters():
nn.init.normal_(param, mean=0, std=0.01)
下面训练并测试模型。
trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': lr})
# optimizer = torch.optim.SGD(net.parameters(), lr=0.5)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, None,
None, trainer)
小结
- 我们可以通过使用丢弃法应对过拟合。
- 丢弃法只在训练模型时使用。