Conformer:用于语音识别的卷积增强Transformer

最新推荐文章于 2025-03-04 09:07:44 发布

托比-马奎尔

最新推荐文章于 2025-03-04 09:07:44 发布

阅读量2.4k

点赞数 15

分类专栏： Transformer变形文章标签：语音识别 transformer 人工智能

本文链接：https://blog.csdn.net/qq_47896523/article/details/141195423

版权

Transformer模型善于捕捉基于内容的全局交互，而cnn则能有效地利用局部特征。在这项工作中，通过研究如何将卷积神经网络和Transformer结合起来，以参数有效的方式对音频序列的局部和全局依赖关系进行建模，从而达到两全面性。

为此，提出了用于语音识别的卷积增强Transformer，命名为Conformer。Conformer显著优于之前的Transformer和基于CNN的模型，达到了最先进的精度。

1. 引言

基于神经网络的端到端自动语音识别(ASR)系统近年来取得了很大的进步。递归神经网络(RNN)已经成为ASR的实际选择，因为它们可以有效地模拟音频序列中的时间依赖性。最近，基于自关注的Transformer体系结构由于能够捕获长距离交互和高训练效率，在序列建模中得到了广泛的采用。另外，卷积在ASR中也取得了成功，它通过一层一层的局部接受场逐步捕获局部上下文。

然而，具有自注意力或卷积的模型都有其局限性。虽然Transformer擅长对远程全局上下文进行建模，但它们在提取细粒度的局部特征模式方面能力较差。另一方面，卷积神经网络(CNN)利用局部信息，在视觉中被用作事实上的计算块。它们在一个局部窗口上学习共享的基于位置的核，这些核保持平移等变性，并能够捕获边缘和形状等特征。使用局部连接的一个限制是，需要更多的层或参数来捕获全局信息。为了解决这个问题，当代作品ContextNet[10]在每个残差块中采用挤压激励模块来捕获更长的上下文。然而，它在捕获动态全局上下文方面仍然有限，因为它只在整个序列上应用全局平均。

1.1 多分支架构

一种多分支架构，将输入分为两个分支:自注意力和卷积;并将它们的输出连接起来。工作目标是移动应用程序，并显示了机器翻译任务的改进。研究了如何将卷积和自注意有机地结合在ASR模型中。假设全局和局部相互作用对于参数效率都很重要。为了实现这一点，提出了一种新颖的自注意和卷积的组合，将实现两全其美——自注意学习全局交互，而卷积有效地捕获基于相对偏移量的局部相关性。受Wu等人[17,18]的启发，引入了一种新颖的自注意力和卷积的组合，夹在一对前馈模块之间，如图1所示。