Interspeech2020 论文阅读笔记

Interspeech2020 论文阅读笔记

Spoken Term Detection(关键词识别)

  • Stacked 1D convolutional networks for end-to-end small footprint voice trigger detection
    提出了 S1DCNN, 并将其与 SVDF(Singular value decomposition filter)做了对比(SVDF 是 S1DCNN 在某种参数设置下的特例)。在笔者看来,S1DCNN 与 1D Time-Channel Separable Convolution 区别仅仅是 depthwise convolution 和 pointwise convolution 的计算顺序不同。

  • An Investigation of Few-Shot Learning in Spoken Term Classification
    将用户自定义关键词识别表示为 few-shot learning 问题;用 Model-Agnostic Meta-Learning (MAML) 来解决此问题。作者代码已开源。

  • Multi-Scale Convolution for Robust Keyword Spotting
    通过多尺度分类器集成实现鲁棒性。

  • Predicting Detection Filters for Small Footprint Open-Vocabulary Keyword Spotting

  • Deep Template Matching for Small-Footprint and Configurable Keyword Spotting

ASR

  • Self-Distillation for Improving CTC-Transformer-based ASR Systems
    作者对之前的工作(下篇)做了扩展,通过多任务的形式 joint 训练: ① Transformer ② CTC ③ 辅助任务。作者称之为自我蒸馏(Self-Distillation)。
    Distilling Attention Weights for CTC-Based ASR Systems
    在知识蒸馏的思想下,利用 S2S 模型产生的 attention weights 来生成辅助任务标签协助 ctc 训练。

N 为 utterance 的标签数量;K+1 为词汇表数量;T 为该句话帧数

  • CTC-synchronous Training for Monotonic Attention Model
    文中通过实验发现在数据量稍小的情况下,约束MoCha生成的 attention scores 的和等于对应标签的长度(Quantity Regularization)可以使训练更加稳定,并且性能更好。作者另外通过加入 CTC-ST 损失函数(使CTC得到的边界和MoChA得到的边界尽可能一致)来解决 MoChA 边界向右偏移的问题,并进一步提升了模型性能。

  • Semantic Mask for Transformer based End-to-End Speech Recognition
    提出一种语义掩码方法来提高基于注意力的E2E模型的语言建模能力,同时也提高了模型的鲁棒性。与 SpecAugment 中使用随机 mask 不同,此方法在训练期间 mask 与输出 Token 对应的整个特征块,鼓励模型更多依赖于上下文语义信息而不是声音信息来填充缺失的标记(或纠正语义错误)。

  • Single headed attention based sequence-to-sequence model for state-of-the-art results on Switchboard
    文中通过实验分析了多种tricks的有效性。

  • CAT: A CTC-CRF based ASR Toolkit Bridging the Hybrid and the End-to-end Approaches towards Data Efficiency and Low Latency
    利用CRF缓解CTC中的条件独立假设问题。

  • SpecSwap: A Simple Data Augmentation Method for End-to-End Speech Recognition
    在时间轴(和频率轴)随机选中两个块然后交换其位置。类似于SpecAugment。

  • SAN-M: Memory Equipped Self-Attention for End-to-End Speech Recognition
    通过阿里之前提出的 DFSMN 增强 self-attention mechanism。

  • Contextual RNN-T for Open Domain ASR
    利用视频字幕来解决语音识别中的实体名称识别问题。

  • Relative Positional Encoding for Speech Recognition and Direct Translation
    在 Transformer 中使用相对位置编码(类似于 Conformer)。

  • Effect of Adding Positional Information on Convolutional Neural Networks for End-to-End Speech Recognition
    卷积网络通常需要较大的感受野才能获得较好的性能。文中通过实验证明,加入位置编码信息后,在较小感受野的情况下也可以达到较好的性能。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值