1.视频网站:mooc慕课https://mooc.study.163.com/university/deeplearning_ai#/c
2.详细笔记网站(中文):http://www.ai-start.com/dl2017/
3.github课件+作业+答案:https://github.com/stormstone/deeplearning.ai
1.6 Dropout 正则化 Dropout regularization
除了L2正则化,还有一个非常实用的正则化方法——“Dropout(随机失活)”,本节介绍它的工作原理。
1.工作原理
假设你在训练上图这样的NN,它存在过拟合,dropout会遍历网络的每一层,并设置消除神经网络中节点的概率。
0
如上图。
假设网络中的每一层,每个节点都以抛硬币的方式设置概率,每个节点得以保留和消除的概率都是0.5,设置完节点概率,我们会消除一些节点,然后删除掉从该节点进出的连线。
最后得到一个节点更少,规模更小的网络,再用backprop方法进行训练。
上面介绍的是一个样本精简的例子。对于其它样本,我们照旧以抛硬币的方式设置概率,保留一类节点集合,删除其它类型的节点集合,都将采用一个精简后NN来训练它。
这种方法似乎有点怪,单纯遍历节点,编码也是随机的,可它真的有效。不过可想而知,我们针对每个训练样本训练规模极小的网络,最后你可能会认识到为什么要正则化网络,因为我们在训练极小的网络。
2.反向随机失活 inverted dropout
2.1训练阶段
实现Dropout有几种方法。最常用的方法是inverted dropout(反向随机失活)
出于完整性考虑,我们用一个三层(l=3)网络来说明,编码中应该涉及整个3层,在这里只以某一层中实施dropout过程为例。
step1.
定义d3表示一个三层的dropout向量矩阵。
d3 = np.random.rand(a3.shape[0],a3.shape[1])
然后看它是否小于某数,我们称之为keep-pro, d 3 < k e e p − p r o b d3<keep-prob d3<keep−prob。
keep-prob是一个具体数字。抛硬币的例子它是0.5,而这里它定义为0.8,它表示保留某个隐藏单元的概率,或者说消除任意一个隐藏单元的概率是0.2,它的作用就是生成随机矩阵。
keep-prob = 0.8
归纳一下,d3是一个矩阵,keep-prob=0.8。每个样本和每个隐藏单元在d3中的对应值为1的概率都是0.8,对应为0的概率是0.2。
step2.
接下来要做的就是从第三层中获取激活函数,这里我们叫它a3,它包含了要计算的激活函数。
a3 =np.multiply(a3,d3) #a3*=d3
这里是元素相乘,也可写为a3*=d3,它的作用就是过滤d3中所有等于0的元素。而各个元素等于0的概率只有20%,乘法运算最终把d3中相应元素输出,即让d3中0元素与a3中相对元素归零。
用python实现该算法,d3是一个布尔型数组,值为true和false,而不是1和0,乘法运算依然有效,python会把true和false翻译为1和0。
step3.关键
最后,我们用a3除以0.8,或者除以keep-prob参数。注意:step2执行完,a3只有初始值的0.8(有0.2被过滤了)。
a3 /= keep-prob
解释一下为什么要这么做。
为方便起见,我们假设第三隐藏层上有50个单元或者说50个神经元。保留和删除它们的概率分别为80%和20%,这意味着最后被删除或归零的单元平均有10个(50×20%=10)。
现在我们看下Z[4], Z [