1.摘要:
为了进一步提高小模型在低计算状态下的性能,提出了两种新的注意特征融合(AFF)方案,包括顺序AFF (S-AFF)和并行AFF (P-AFF),以可学习的方式动态融合特征。
2.背景:
关于网络主干,近年来出现了多种架构,大致可分为四种不同类型:时延神经网络(TDNN),卷积神经网络(CNN)、Transformer ,和多层感知器(MLP)。
但是大模型不仅在计算上不友好,需要大量的存储和计算资源,而且由于性能提升非常有限,因此计算效率低下。另一方面,小模型普遍与大模型有明显的性能差距。如何在模型性能和计算复杂度之间实现良好的权衡在SV领域很少被讨论。
3.AFF:
3.1 特征权重
引入了注意力特征融合方案,该方案可以通过使用注意力模块以可学习的方式基于特征内容生成融合权重,从而实现不同特征之间的动态融合。
MS-CAM和CA旨在同时捕获特征中不同的跨维度交互,以增强表示能力
MS-CAM由两个分支组成,分别沿着通道维度聚合本地和全局上下文信息。
Gap代表全局平均池化
L(X)和G(X)的频率和时间维度对不上,所以是用broadcastting addition。
左右两边分别对时间和频率处理。
其中 GAP t 是沿时间维度的平均池化。
其中 GAP f 是沿频率维度的平均池化。
这里是广播乘法
3.2 特征融合
左右分别位顺序AFF(S-AFF)和并行AFF(P-AFF)。
4.应用
1)ResNet/DF-ResNets:在ResNet和DF-ResNets的残差块中,存在二元特征融合,其中采用特征之间的逐元素相加。我们提出的 AFF 模块可以通过简单地替换每个残差块中原始的逐元素加法来轻松集成到 ResNet 和DF-ResNets 中。
2)ECAPA-TDNN/DF-ECAPA:对于ECAPA-TDNN和DF-ECAPA,SE-Res2Block中的逐元素加法可以用二进制AFF模块和多层特征聚合中的级联代替可以用多个AFF模块替代。