Sequence-to-Sequence Speech Recognition with Time-Depth Separable Convolutions

1.论文摘要

提出了一种time-depth separable 的卷积网络结构,作为ED模型的encoder,在显著减少了参数量的同时增加了计算速度,并且可以维持较大的感受野范围,在noisy LibriSpeech test set 取得了WER 22%的提升。

2.模型结构

在这里插入图片描述

  • encoder
    TDS 的卷积结构,采用了一个2d卷积,这里输入维度为(batch_size, 1, time_step, num_mel), 采用k,1 的kernel size,输出为 (batch_size, c, time_step, num_mel), 然后将维度c 和 num_mel 维度合成一维,过两个1x1 conv 的类似fc的卷积, 这里在每层卷积后都接relu的非线性变化,并且在TDS中没有接pooling 层, 而是选择在每组block 后接1d 卷积stride 为2做时间维度上8倍的下采样。
    在这里插入图片描述
    这个公式的意思是将TDS 输出即过全连接后的特征维度上进行平分,(T, w*c/2) 一半做K, 剩下做V.

  • decoder
    在这里插入图片描述
    decoder 计算结构采用gru
    (1)training时采用teacher forcing 输入的 y u − 1 y_{u-1} yu1为ground truth,因此可以并行快速计算。
    (2)attention 时,直接采用内积而不是neural attention.
    在这里插入图片描述
    (3)采用random sampling 方法来减小训练测试不匹配的问题,具体方法:从词表中以 P r s P_{rs} Prs为界限采样U个token, 每个token被选做作为gru 输入单元的概率是平等的,最终输入的构建,其中Z为U个token中挑选出的向量。
    在这里插入图片描述
    (4)在初始训练的几个epoch 采用了softwindow 来保证attention 时输入与输出的对齐,距离越大权重越小,以此来加快收敛。
    在这里插入图片描述
    在这里插入图片描述

  • Beam search
    在这里插入图片描述
    采用了两个方法来保证解码的稳定性:(1)hypotheses attention 位置必须是前一个attention peak的 t m a x t_{max} tmax以外的距离。
    (2)输入EOS 的条件
    在这里插入图片描述

3.实验结果

TDS 配置:11blocks: channel 102+channel 143+channel18*6
在这里插入图片描述
在与其他hybrid 模型以及end2end 模型对比中达到了最优结果。
在这里插入图片描述
模型对于模型参数数量较为敏感,当数量下降感受野不变的情况,效果明显变差;不改变感受野大小,减小block数量,影响较小;保持较小的word piece sampling 和 random sampling 概率可以提升模型效果,有助于模型收敛。soft window 对于模型快速收敛以及最终效果都有好处。

总结:利用卷积层作为encoder, 在使用大kernel size的条件下保持较大的感受野,起到了self attention的效果,能够显著减少模型参数,保持较高的计算速度。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值