除了前⼀节介绍的权重衰减以外,深度学习模型常常使用丢弃法(dropout)来应对过拟合问题。丢弃法有⼀些不同的变体。本节中提到的丢弃法特指倒置丢弃法(inverted dropout)。
目录
1. 方法
回忆⼀下,(多层感知机)的图示描述了一个单隐藏层的多层感知机。其中输⼊个数为4,隐藏单元个数为5,且隐藏单元的计算表达式为:
这里是激活函数,是输入,隐藏单元i的权重参数为,偏差参数为.当对该隐藏层使⽤丢弃法时,该层的隐藏单元将有一定概率被丢弃掉。设丢弃概率为p,那么有p的概率 会被清零,有1-p的概率会除以1-p做拉伸。丢弃概率是丢弃法的超参数。具体来说,设随机变量为 0和1的概率分别为p和1-p。使⽤丢弃法时我们计算新的隐藏单元:
由于