说到drop path,先来介绍一下正则化:
正则化 (Regularization) 是机器学习中对原始损失函数引入额外信息,以便防止过拟合和提高模型泛化性能的一类方法的统称。 也就是目标函数变成了 原始损失函数+额外项 ,常用的额外项一般有两种,英文称作 ℓ1 − norm 和 ℓ2 − norm ,中文称作 L1正则化 和 L2正则化 ,或者L1范数和L2范数(实际是L2范数的平方)。
Drop Path是NAS中常用到的一种正则化方法,由于网络训练的过程常常是动态的,Drop Path就成了一个不错的防止过拟合工具:
原理:随机将深度学习网络中的多分支结构随机删除。
作用:一般可以作为正则化手段加入网络,但是会增加网络训练的难度。如果设置的drop prob过高,模型甚至有可能不收敛。
而dropout是最早用来解决过拟合的方法。
原理:在前向传播的时候,让某个神经元激活以概率1-keep_prob(0<p<1)停止工作。
作用:可以让模型泛化能力更强,不会过于依赖某些局部的节点。训练阶段以keep_prob的概率保留,以1-keep_prob的概率关闭;测试阶段所有的神经元都不关闭,但是对训练阶段应用了dropout的神经元,输出值需要乘以keep_prob。