目录
一、L2正则化
损失函数
梯度
非正则化部分反向传播的梯度(from backprop)+
简单来说,添加了正则项后,损失函数计算梯度下降时就要同时满足原损失函数和正则项的权重同时等于0,压缩了解的空间,即对权重w的可能的取值做了限制。权重衰减weight decay,并不是一个规范的定义,而只是俗称而已,可以理解为削减/惩罚权重。在大多数情况下weight dacay 可以等价为L2正则化。L2正则化的作用就在于削减权重,降低模型过拟合,其行为即直接导致每轮迭代过程中的权重weight参数被削减/惩罚了一部分,故也称为权重衰减weight decay。L2正则令权重先自乘小于1的数,再减去不含惩罚项的梯度。
- 关于,深度学习中L2范数为啥能减少过拟合,直观上来说,若过大,则权重矩阵W接近于0,把多个隐藏层单元权重设为0,几乎消除了这些隐藏单元的许多影响,这个被大大简化的网络会变成一个很小的网络,小到如同一个逻辑单元,但是深度却很大。直观上当很大时,W会接近于0,我们尝试消除或至少减少许多隐藏单元的影响,最终网络会变得更简单,这个网络越来越接近逻辑回归,我们直觉上认为大量隐藏但愿被完全消除了,其实并没有,该神经网络的所有隐藏单元依旧存在,但是他们的影响变小了,这样不容易发生过拟合。
- L2范数会使W的值不会过大,当W较小的时候,Z就可能比较小,这里就可以利用双曲正切函数的线性状态,当W变大时,z就可能变大,激活函数就开始变得非线性。可能这部分值就集中在激活函数比较线性的部分,非线性不那么明显,所以简化了模型。
二、dropout正则化
倒置丢弃法(inverted dopout)
倒置丢弃法:不改变其输入的期望值。
keep-prob:保留某个单元的概率,例如keep-prob=0.8, 意味着消除任意一个隐藏单元的概率是0.2。
举个🌰 :
我们设置的keep-prob=0.8,即0.2的概率失活,我们会要对除以0.8,以弥补或修正失活的20%,的期望值不会变,反向随机失活方法通过除以keep-prob确保的期望值不变。该方法在预测阶段也会很方便,若不除以keep-prob,平均值会变得越来越复杂。不同的训练样本,清除不同的隐藏层单元。若通过相同训练集多次传递数据,每次训练数据的梯度不同,则随机对不同隐藏层单元归0。预测阶段不需要考虑dropout,自然无需考虑随机失活,自然了就不用除以keep-prob。
dropout之后,神经网络会变得比以前更小。用一个较小的神经网络和使用正则化效果类似
在该例子中,中的每一个单元都有可能被消除。注定不能过渡依赖一个节点,在反向传播时,与这两个隐藏单元相关的权重的梯度均为0(同样可以理解,随机失活,即该单元不起作用,自然相关的前向反向均不起作用)。故而不会偏向给任意一个输入加上太多权重,而是给每一个单元增加一点点权重。dropout将产生收缩权重的平方范数的效果,和之前的L2正则化类似。实施dropout的结果是会压缩权重,并完成一些预防过拟合的外层正则化。
实施dropout在计算机视觉领域有很多成功的第一次,计算机视觉中的输入量非常大,输入了太多像素,以至于没有足够的数据,所以dropout在计算机视觉中应用得比较频繁,有些计算机视觉研究人员非常喜欢用它,几乎成了默认的选择。
但是要牢记一点,dropout是一种正则化方法,它有助于预防过拟合,因此,除非算法过拟合,不然一般是不会使用dropout的。所以它在其它领域应用得比较少,主要应用在计算机视觉中,因为通常没有足够的数据,所以一直存在过拟合,这就是有些计算机视觉研究人员如此钟情dropout函数的原因。
dropout一大缺点是代价函数J 不再被明确定义,每次迭代都会随机移除一些节点,如果再检查梯度下降的性能,实际上是很难进行复查的。定义明确的代价函数J每次迭代后都会下降。因为我们所优化的代价函数J实际上并没有明确定义,或者在某种程度上很难计算,我们失去了调试工具来绘制损失函数图。
通常会关闭dropout函数,将keep-prop的值设置为1,运行代码,确保J函数单调递减,然后再打开dropout函数,在dropout过程中,代码并未引入bug。
三、数值稳定性 & 模型初始化
数值稳定性
关于数值稳定性,ng举了一个例子,激活函数是其本身a=g(z)=z,偏差为0(b=0),,设
,则,当L=20时,,就很小,反向传播,梯度传到第一层也很小。
,则,当L=20时,,就很小,反向传播,梯度传到第一层也很大。
模型初始化
Xavier初始化:设某全连接层输入个数为a,输出个数为b,将使该层中权重参数的每个元素都随机采样于均匀分布。这样的好处:模型参数初始化后,每层输出的方差不该受该层输入个数的影响,每层梯度的方差也不该受该层输出个数的影响。