（二）深度学习基础 -- 5 (2) 丢弃法

最新推荐文章于 2021-04-16 16:52:31 发布

Fiona-Dong

最新推荐文章于 2021-04-16 16:52:31 发布

阅读量292

点赞数

分类专栏：动手学深度学习-TF2.0（读书笔记）

原文链接：https://trickygo.github.io/Dive-into-DL-TensorFlow2.0/#/chapter03_DL-basics/3.13_dropout

版权

动手学深度学习-TF2.0（读书笔记）专栏收录该内容

45 篇文章 13 订阅

订阅专栏

5.2 丢弃法

丢弃法存在不同的变体，本文特指倒置丢弃法（inverted dropout）。

5.2.1 定义

在（二）深度学习基础 – 3 小节中，介绍了如下图所示的多层感知机：
输入和输出个数分别为4和3，中间的隐藏层包含5个隐藏单元（hidden unit）；
多层感知机的层数为2，且隐藏层和输出层都为全连接层。

多层感知机

设隐藏单元为 $h_i$ （ $\ldots, 5$ ），激活函数为 $\phi$ ，输入为 $x_1, \ldots, x_4$ ，隐藏单元 $i$ 的权重参数为 $w_{1i}, \ldots, w_{4i}$ ，偏差参数为 $b_i$ ，则有：

$h_i = \phi\left(x_1 w_{1i} + x_2 w_{2i} + x_3 w_{3i} + x_4 w_{4i} + b_i\right)$

当对隐藏层使用丢弃法时，隐藏单元将有一定概率被丢弃掉，该丢弃概率即为丢弃法的超参数。
设丢弃概率为 $p$ ，则 $h_i$ 有 $p$ 的概率被清零，有 $1 - p$ 的概率除以 $1 - p$ 做拉伸。

具体来说，设随机变量 $\xi_i$ 为0和为1的概率分别为 $p$ 和 $1 - p$ 。使用丢弃法时，有新的隐藏单元 $h_i'$ ：

$h_i' = \frac{\xi_i}{1-p} h_i$

若对上图中的隐藏层使用丢弃法，一种可能的结果如下图所示：

隐藏层使用丢弃法的多层感知机

其中， $h_2$ 和 $h_5$ 被清零。此时，输出值的计算不再依赖 $h_2$ 和 $h_5$ （反向传播时，与这两个隐藏单元相关权重的梯度均为0）。

由于在训练中，隐藏层神经元的丢弃是随机的，即 $h_1, \ldots, h_5$ 都有可能被清零，因此，输出层的计算无法过度依赖 $h_1, \ldots, h_5$ 中的任一个，在训练模型时起到正则化的作用，可以用来应对过拟合。

5.2.2 代码实现

(1) 生成数据集

import tensorflow as tf
from tensorflow.keras import datasets, Sequential, layers, optimizers, losses

(x_train,y_train), (x_test,y_test) = datasets.fashion_mnist.load_data()

# 矩阵相乘需要float型，故强制进行类型转换；归一化
x_train = tf.cast(x_train, tf.float32) / 255
x_test = tf.cast(x_test, tf.float32) / 255

batch_size = 256
train_iter = tf.data.Dataset.from_tensor_slices((x_train,y_train)).batch(batch_size=batch_size)
test_iter = tf.data.Dataset.from_tensor_slices((x_test,y_test)).batch(batch_size=batch_size)

(2) 定义、训练模型

注：丢弃法只在训练模型时使用。

model = Sequential([
    
    layers.Flatten(input_shape=(28,28)),
    layers.Dense(256, activation='relu'),
    layers.Dropout(0.5),
    layers.Dense(256, activation='relu'),
    layers.Dropout(0.2),
    layers.Dense(10, activation=tf.nn.softmax)
])

model.compile(
    optimizer=optimizers.Adam(),
    loss='sparse_categorical_crossentropy',
    metrics=['accuracy']
)

model.fit(x_train,y_train,batch_size=batch_size,epochs=5,validation_data=(x_test,y_test),validation_freq=1)

输出：

Train on 60000 samples, validate on 10000 samples
Epoch 1/5
60000/60000 [==============================] - 2s 34us/sample - loss: 0.6794 - accuracy: 0.7573 - val_loss: 0.4473 - val_accuracy: 0.8346
Epoch 2/5
60000/60000 [==============================] - 1s 23us/sample - loss: 0.4665 - accuracy: 0.8325 - val_loss: 0.4075 - val_accuracy: 0.8551
Epoch 3/5
60000/60000 [==============================] - 1s 24us/sample - loss: 0.4273 - accuracy: 0.8444 - val_loss: 0.3886 - val_accuracy: 0.8627
Epoch 4/5
60000/60000 [==============================] - 1s 22us/sample - loss: 0.4034 - accuracy: 0.8537 - val_loss: 0.3822 - val_accuracy: 0.8669
Epoch 5/5
60000/60000 [==============================] - 1s 21us/sample - loss: 0.3831 - accuracy: 0.8598 - val_loss: 0.3650 - val_accuracy: 0.8676