a:第一问
答:这种方式会使梯度变化不太大,方差小,减小震荡,可以更好地找到最小值。
第二问:
答:
v
\sqrt{v}
v会使小的值变大,大的值变小,从而梯度小的地方会得到更大的更新,梯度大的地方会得到更小的更新,减少震荡。
b:
第一问:
因为有
所以
所以有
γ
=
1
1
−
p
drop
\gamma = \frac 1 {1- p_{\text{drop}}}
γ=1−pdrop1
问题2:
首先什么是dropout:
dropout是一种正则化技术,可以减少过拟合,增加泛化性。而在评估过程中,我们需要参数和一致输出之间的所有连接,所以不需要使用dropout。
参考:【CS224n】(assignment3)Adam和Dropout
深度学习中Dropout原理解析