深入探索自适应参数化激活函数:Adaptive Parametric Activation在平衡与不平衡学习中的应用

Adaptive Parametric Activation

GitHub   |   Arxiv

Abstract

The activation function plays a crucial role in model optimisation, yet the optimal choice remains unclear. For example, the Sigmoid activation is the de-facto activation in balanced classification tasks, however, in imbalanced classification, it proves inappropriate due to bias towards frequent classes. In this work, we delve deeper in this phenomenon by performing a comprehensive statistical analysis in the classification and intermediate layers of both balanced and imbalanced networks and we empirically show that aligning the activation function with the data distribution, enhances the performance in both balanced and imbalanced tasks. To this end, we propose the Adaptive Parametric Activation (APA) function, a novel and versatile activation function that unifies most common activation functions under a single formula. APA can be applied in both intermediate layers and attention layers, significantly outperforming the state-of-the-art on several imbalanced benchmarks such as ImageNet-LT, iNaturalist2018, Places-LT, CIFAR100-LT and LVIS and balanced benchmarks such as ImageNet1K, COCO and V3DET. 

激活函数在模型优化中扮演着至关重要的角色,然而最佳选择仍不明确。例如,在平衡分类任务中,广泛采用Sigmoid激活函数,但在不平衡分类任务中已被证明不合适,因为其对频繁类别有偏好。本研究通过全面统计分析平衡和不平衡网络的分类层和中间层来深入探究这一现象,并实验证明将激活函数与数据分布相匹配可以提高性能。因此,我们提出了自适应参数激活(APA)函数作为一种新颖且通用的替代方案,该函数将常见的多个激活函数统一到一个公式下。APA可应用于中间层和注意力层,在多个不平衡基准(如ImageNet-LT、iNaturalist2018、Places-LT、CIFAR100-LT和LVIS)以及平衡基准(如ImageNet1K、COCO和V3DET)上显著优于当前先进技术。

————————————————————————————————————————

近年来,深度学习在图像识别领域取得了显著进展,这主要得益于大规模数据集的使用、模型架构的改进、学习算法的创新、激活层的多样化以及归一化技术的优化。在这篇文章中,我们将详细介绍一项新的研究成果——自适应参数化激活函数(Adaptive Parametric Activation, APA),该研究成果由来自华为诺亚方舟实验室、英国利物浦大学和伦敦国王学院的科研人员共同完成。APA函数通过统一大多数常见的激活函数,在平衡和不平衡学习任务中均表现出色,显著提升了模型性能。

动机

在深度学习模型中,激活函数的选择对模型的优化至关重要,但最优选择仍不明确。例如,Sigmoid激活函数在平衡分类任务中是默认选择,但在不平衡分类任务中则表现出对频繁类别的偏置,导致性能下降。这一现象促使本文深入探索激活函数与数据分布之间的关系。

通过统计分析和实验验证,本文发现:

分类层中的激活函数:在平衡学习中,分类logits与Logistic分布对齐较好;而在不平衡学习中,它们则与Gumbel分布对齐更好。

中间层中的激活函数:在平衡学习中,通道注意力对所有类别都是鲁棒的;但在不平衡学习中,通道注意力更多地增强了频繁类别而非稀有类别。

基于上述发现,本文提出APA函数,旨在通过自适应地调整激活函数,以匹配数据分布,从而提升模型在平衡和不平衡任务中的性能。

方法

自适应参数化激活函数(APA) 

图1:上图:在不平衡学习中,logit分布更加偏斜,如图(d)所示,与Gumbel分布相比,它们的KS距离更小。下图:在平衡学习中,logit分布的偏斜程度更小,如图(h)所示,它们与Logistic分布的匹配程度更好,而与Gumbel分布的匹配程度较差。

图2:通道注意力的可视化(A)。在(a)中,在使用不平衡的ImageNet和平衡的ImageNet进行训练时,第一层的注意力信号具有相似的方差,但在最深的语义层(b)中完全不同。在(c)中,ImageNet-LT训练的深层注意力方差为零,因为注意力只促进了少数频繁出现的类。在(d)和(e)中,i-Naturalist18和ImageNet-LT训练中的稀有类的通道注意力熵小于频繁类。在(f)和(g)中,i-Naturalist18和ImageNet-LT中的稀有类的通道响应小于频繁类。

APA函数通过两个可学习的参数κ和λ动态调整激活率,这两个参数在优化过程中被学习。APA的公式如下:

其中,κ是增益参数,控制函数的敏感度;λ是不对称参数,控制函数对正负输入的响应率,允许模型在输入为正或为负时具有不同的学习程度。

APA函数具有以下优点

统一性:APA能够统一大多数常见的激活函数,如Sigmoid、Gumbel、ReLU、SiLU和GELU等。

可学习性:通过两个可学习的参数,APA允许网络在优化过程中选择最佳的激活函数,增加了模型的容量。

灵活性:APA可以作为ReLU的直接替代,也可以替换注意力机制中的Sigmoid激活函数,显著提升性能。

实验验证

为了验证APA的有效性,本文在多个平衡和不平衡的基准数据集上进行了实验,包括ImageNet-LT、iNaturalist2018、Places-LT、CIFAR100-LT、LVIS等不平衡数据集,以及ImageNet1K、COCO和V3DET等平衡数据集。实验结果表明,APA在所有这些数据集上都显著超过了现有方法。

在实验中,本文分析了APA在不同层中的表现,发现APA能够根据数据分布动态调整激活函数,从而在中间层和分类层中都表现出色。特别是在不平衡学习中,APA通过调整激活函数,显著提高了对稀有类别的建模能力。

结论

自适应参数化激活函数(APA)是一项创新的研究成果,它通过统一大多数常见的激活函数,并在优化过程中自适应地调整激活率,显著提升了模型在平衡和不平衡学习任务中的性能。实验结果表明,APA在多个基准数据集上都取得了优异的表现,为未来的深度学习研究提供了新的思路和方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值