用于视觉识别的Funnel激活函数
Ma NingNing;Zhang Xiangyu;Sun Jian
摘要:我们提出了一种概念简单但有效的图像识别激活函数,称为Funnel激活函数(FReLU),它通过增加了微不足道的空间条件开销,将ReLU和PReLU扩展为二维激活函数。ReLU和PReLU的形式分别为和
, FReLU的形式为
,其中
为二维空间条件。此外,空间条件以简单的方式实现像素级的建模能力,通过规则的卷积捕获复杂的视觉布局。我们在ImageNet、COCO检测和语义分割任务上进行了实验,显示了FReLU在视觉识别任务上有很大的改进和鲁棒性。
代码可在https://github.com/megvii-model/FunnelAct下载。
关键字:Funnel激活函数;视觉检测;卷积神经网络
1.引言
卷积神经网络(CNNs)在许多视觉识别任务中取得了最先进的性能,如图像分类、目标检测和语义分割。正如在CNN框架中常见的,一种主要的层是卷积层,另一种是非线性激活层。
首先,在卷积层中,自适应捕获空间依赖关系具有挑战性,许多更复杂、更有效的卷积技术已经被提出,可以自适应地在图像中捕获局部上下文[7,18]。特别是在密集预测任务(如语义分割、目标检测)方面取得了巨大的成功。由于更复杂的卷积技术的进步和它们较低的实现效率,一个问题出现了:规则的卷积能否达到类似的精度,来抓取具有挑战性的复杂图像。
其次,通常是捕获线性卷积层中的空间依赖关系之后,然后激活层作为一个标量非线性变换对该关系进行处理。许多有见解的激活被提出[31,14,5,25],但提高视觉任务的表现是具有挑战性的,因此目前最广泛使用的激活仍然是线性整流函数(ReLU)[32]。受卷积层和激活层不同作用的驱动,另一个问题出现了:我们能设计一个专门针对视觉任务的激活函数吗?
为了回答上面提出的问题,我们表明在简单而有效的视觉激活任务中,利用常规的卷积层,也可以显著改善稠密和稀疏的预测(如图像分类,见图1)。为了达到这一结果,我们认为激活中的空间不敏感是阻碍视觉任务取得显著改善的主要障碍,并提出了一种新的视觉激活函数可以消除这一障碍。在这项工作中,我们提出了一种简单但有效的视觉激活函数,将ReLU和PReLU扩展到二维视觉激活函数。
在应用于视觉任务中现存的激活函数的空间不敏感性问题已经被提出来了。例如常见的RuLU激活函数,在人为设定0值得条件下,利用来实现非线性功能,故标量公式为:
。在许多具有挑战性的任务上,ReLU的激活始终如一地达到最高的精确度。通过一系列的研究[31,14,5,25],ReLU的许多变体以不同的方式修正了条件,相对提高了准确性。
然而,对于视觉任务来说,进一步的改进是有挑战性的。
我们的方法称为漏斗激活(FReLU),通过添加一个空间条件(见图2)扩展了ReLU/PReLU的核心内容,这很容易实现,只增加微不足道的计算开销。我们提出的方法的形式为,其中
表示简单有效的空间上下文特征提取器。通过在激活中使用空间条件,它简单地将ReLU和PReLU扩展到具有像素级建模能力的可视参数ReLU。
我们提出的视觉激活是一种有效且比以前的激活方法更有效的替代方法。为了证明视觉激活的有效性,我们在分类网络中替换了普通的主链,并使用预先训练好的主链来展示其在其他两个基本视觉任务:目标检测和语义分割上的通用性。结果表明,FReLU不仅提高了单个任务的性能,而且可以很好地转移到其他视觉任务上。
2.相关工作
标量激活函数。标量激活是单输入单输出的激活,形式为。直线整流器(ReLU)[13,23,32]是各种任务中使用最广泛的标量激活方法[26,38],其形式为
。它对各种任务和数据集是简单和有效的。为了修改消极部分,人们提出了许多变体,如Leaky ReLU [31], PReLU [14], ELU[5]。它们保持了正部分的同一性,使负部分自适应地依赖于样本。
其他标量方法,如sigmoid非线性的形式为,和Tanh非线性函数形式为
。这些激活函数并没有广泛应用于深度神经网络,主要是因为它们饱和和消除梯度,也涉及昂贵的操作(指数等)。
随后出现了许多进步的激活函数[25,39,1,16,35,10,46],最近的搜索技术通过结合一组一元函数和二元函数,形成了一种新的搜索标量激活函数,称为Swish[