Conformer是在Tranformer的基础上,引入CNN,来增强语音识别的效果。
我们已经了解了Transformer的大概结构,就是分为Encoder-Decoder架构。在Encoder部分包含6个block,每个block由self-attention和FFN两层网络组成。
Conformer只改变了Transformer的Encoder部分。
加入了Con卷积层,而且在Conformer block的前后两端都加入了FFN模块,且在每个模块上都引入残差。同时,self-attention加入了相对位置编码。