ASR之Conformer

原文链接:Conformer: Convolution-augmented Transformer for Speech Recognition

一、原理分析

由于Transformer注重全局相关性,而CNN注重局部相关性,则二者结合可能在端到端ASR中取得较以往的RNN更好的效果。

二、结构

Conformer Block = (1/2 * FNN + MHSA + Conv + 1/2 * FNN + LayerNorm) with Reisdual

三、与Transformer区别

1.不同的模块

a)SWISH + ReLU: 使用激活函数 Swish(x) = x * torch.sigmoid(x)

b)CNN Block

c)Macaron FFN : 使用成对FNN 并乘以1/2权重,如Conformer Block图

d)Relative Pos.Emb 位置编码方法:       

  PE(pos, 2i) = sin(pos / 10000 ^ {2i/dm})\\\ PE(pos, 2i+1) = cos(pos / 10000 ^ {2i/dm})

其中pos为输入单位在输入中的位置,2i 代表该向量中的第 2i 个维度,dm为维度的总数。

2.结论

第二个与第三个模块最为重要

四、几个研究维度

1.MHSA与CNN结合方式

a)使用轻量级CNN

b)交换MHSA与CNN的顺序

c)将输入划分开再传入多个注意头中

2.Macaron FFN

使用双FFN和权重乘以1/2,哪个更重要?都重要!

3.注意头的数量

注意头数 * 维度数(dm) == 512,其中注意头数取16较为合适

4.卷积核大小

文章研究了3、7、17、32、65等大小的卷积核对结果的影响,kernel_size == 32 时效果最好

五、数据相关

1.数据集

LibriSpeech、testclean、testother

2.语音预处理

80-channel filterbanks、25ms window、10ms stride

3.频谱增强

with mask parameter (F = 27), and ten time masks with maximum time-mask ratio (pS = 0.05),, where the maximum-size of the time mask is set to pS times the length of the utterance.

(这里暂时不太明白)

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值