从头学pytorch(七):dropout防止过拟合

最新推荐文章于 2024-07-08 21:50:19 发布

may_walkaway

最新推荐文章于 2024-07-08 21:50:19 发布

阅读量1k

点赞数 1

本文链接：https://blog.csdn.net/sinat_27535209/article/details/103785357

版权

本文介绍了Dropout防止过拟合的原理，通过实例展示了如何在PyTorch中从零开始实现和简洁实现 Dropout。在训练过程中，随机丢弃神经元的输出并调整保留输出的值，以保持期望输出不变，从而避免模型过度依赖某些神经元。

摘要由CSDN通过智能技术生成

上一篇讲了防止过拟合的一种方式,权重衰减,也即在loss上加上一部分\(\frac{\lambda}{2n} \|\boldsymbol{w}\|^2\),从而使得w不至于过大,即不过分偏向某个特征.

这一篇介绍另一种防止过拟合的方法,dropout,即丢弃某些神经元的输出.由于每次训练的过程里,丢弃掉哪些神经元的输出都是随机的,从而可以使得模型不过分依赖于某些神经元的输出,从而达到防止过拟合的目的．

需要注意的一点是:并不是简单地丢弃掉某些神经元的输出,对留下的输出,我们要改变他们的值,以保证丢弃前后的输出的期望不变

比如,对如下神经网络:输入个数为4，隐藏单元个数为5，且隐藏单元\(h_i\)（\(i=1, \ldots, 5\)）的计算表达式为

\[ h_i = \phi\left(x_1 w_{1i} + x_2 w_{2i} + x_3 w_{3i} + x_4 w_{4i} + b_i\right) \]

这里\(\phi\)是激活函数，\(x_1, \ldots, x_4\)是输入，隐藏单元\(i\)的权重参数为\(w_{1i}, \ldots, w_{4i}\)，偏差参数为\(b_i\)。当对该隐藏层使用丢弃法时，该层的隐藏单元将有一定概率被丢弃掉。设丢弃概率为\(p\)，那么有\(p\)的概率\(h_i\)会被清零，有\(1-p\)的概率\(h_i\)会除以\(1-p\)做拉伸。丢弃概率是丢弃法的超参数。具体来说，设随机变量\(\xi_i\)为0和1的概率分别为\(p\)和\(1-p\)。使用丢弃法时我们计算新的隐藏单元\(h_i'\)

\[ h_i' = \frac{\xi_i}{1-p} h_i \]

由于\(E(\xi_i) = 1-p\)，因此

\[ E(h_i') = \frac{E(\xi_i)}{1-p}h_i = h_i \]

从零开始实现

以一个三层的多层感知机为例.两个隐藏层的输出个数都是256．

导入必要的包

import torch
import torch.nn as nn
import numpy as np
import sys
import utils

utils.py中包含了常用的一些实现,比如数据集加载,sgd实现之类的函数都实现在了这个文件里.

实现dropout

def dropout(X,drop_prob):
    X = X.float()
    keep_prob = 1 - drop_prob

    if keep_prob == 0:
        return torch.zeros_like(X)
    mask = (torch.rand(X.shape) < keep_prob).float()