dropout的forward过程及backward反向传播过程

最新推荐文章于 2023-12-27 18:07:10 发布

风吹草地现牛羊的马

最新推荐文章于 2023-12-27 18:07:10 发布

阅读量2.6k

点赞数 7

分类专栏： pytorch 机器学习

本文链接：https://blog.csdn.net/mch2869253130/article/details/119809360

版权

机器学习同时被 2 个专栏收录

97 篇文章 5 订阅

订阅专栏

pytorch

38 篇文章 3 订阅

订阅专栏

本文详细介绍了Dropout在深度学习中的作用，通过在训练过程中随机忽略部分神经元来防止过拟合。在前向传播中，Dropout根据随机生成的mask对输入进行下采样。训练时，为保持期望一致，Dropout后的结果会被缩放。在反向传播时，计算损失对输入的梯度时需考虑Dropout的影响。该方法有助于提高模型的泛化能力。

摘要由CSDN通过智能技术生成

forward过程

假设以概率 $p$ 丢弃 $K$ 维输入向量 $x=[x_1, x_2, ,, x_K]$ 的某些值。
那么经过dropout之后的向量定义为 $d$ ，有
$x^{'} = d r o p o u t (x)$
这个过程相当于生成一个随机的 $K$ 维的mask，这个mask的生成过程如下：

$[r_1, r_2, ,,r_K]，其中0<r_i <1。 \\ mask = \left\{ \begin{aligned} 0 \ \ \ \ r_i < p \\ 1 \ \ \ \ r_i \ge p \end{aligned} \right.$
然后 $x$ 与 $m a s k$ 做对应元素点乘（这个操作记为 $@$ ）。也就是
$x^{'} = d r o p o u t (x) = x @ m a s k$
这样的设计的dropout会出现一些问题。在训练的时候，dropout工作， $x$ 经过dropout之后的期望为
$E [x] = p * 0 + (1 - p) * x = (1 - p) x$
在测试的时候，dropout是不工作的，此时 $x$ 的期望是 $x$ 。这样导致训练和测试的期望不一样，模型会不稳定。为了让训练时候 $x$ 的期望和测试时一直，一种做法是在训练时将dropout后的结果除以 $1 - p$ 。这时也就相当于将mask变为：
$[r_1, r_2, ,,r_K]，其中0<r_i <1。 \\ mask = \left\{ \begin{aligned} 0 \ \ \ \ r_i < p \\ {1 \over 1-p} \ \ \ \ r_i \ge p \end{aligned} \right.$

backward

假设模型forward之后的loss是 $l$ ，如何求反向传播时 $l$ 对 $x$ 的梯度？
$x = [x_1, x_2, ..., x_K] \\ x' = dropout(x) = x@mask \\ l = forward(x')$
那么 $\over dx} = {dl \over dx'}{dx' \over dx}$
其中
$\over dx} = \left\{ \begin{aligned} 0 \ \ \ \ r_i < p \\ {1 \over 1-p} \ \ \ \ r_i \ge p \end{aligned} \right.$