Interspeech2020 论文阅读笔记

最新推荐文章于 2021-09-03 14:22:28 发布

mlxu995

最新推荐文章于 2021-09-03 14:22:28 发布

阅读量732

点赞数 1

文章标签：深度学习

本文链接：https://blog.csdn.net/joker03/article/details/109538291

版权

Interspeech2020 论文阅读笔记

Spoken Term Detection（关键词识别）
ASR

Spoken Term Detection（关键词识别）

Stacked 1D convolutional networks for end-to-end small footprint voice trigger detection
提出了 S1DCNN，并将其与 SVDF（Singular value decomposition filter）做了对比（SVDF 是 S1DCNN 在某种参数设置下的特例）。在笔者看来，S1DCNN 与 1D Time-Channel Separable Convolution 区别仅仅是 depthwise convolution 和 pointwise convolution 的计算顺序不同。
An Investigation of Few-Shot Learning in Spoken Term Classification
将用户自定义关键词识别表示为 few-shot learning 问题；用 Model-Agnostic Meta-Learning (MAML) 来解决此问题。作者代码已开源。
Multi-Scale Convolution for Robust Keyword Spotting
通过多尺度分类器集成实现鲁棒性。
Predicting Detection Filters for Small Footprint Open-Vocabulary Keyword Spotting
Deep Template Matching for Small-Footprint and Configurable Keyword Spotting

ASR

Self-Distillation for Improving CTC-Transformer-based ASR Systems
作者对之前的工作（下篇）做了扩展，通过多任务的形式 joint 训练： ① Transformer ② CTC ③ 辅助任务。作者称之为自我蒸馏（Self-Distillation）。
Distilling Attention Weights for CTC-Based ASR Systems
在知识蒸馏的思想下，利用 S2S 模型产生的 attention weights 来生成辅助任务标签协助 ctc 训练。

N 为 utterance 的标签数量；K+1 为词汇表数量；T 为该句话帧数

CTC-synchronous Training for Monotonic Attention Model
文中通过实验发现在数据量稍小的情况下，约束MoCha生成的 attention scores 的和等于对应标签的长度（Quantity Regularization）可以使训练更加稳定，并且性能更好。作者另外通过加入 CTC-ST 损失函数（使CTC得到的边界和MoChA得到的边界尽可能一致）来解决 MoChA 边界向右偏移的问题，并进一步提升了模型性能。
Semantic Mask for Transformer based End-to-End Speech Recognition
提出一种语义掩码方法来提高基于注意力的E2E模型的语言建模能力，同时也提高了模型的鲁棒性。与 SpecAugment 中使用随机 mask 不同，此方法在训练期间 mask 与输出 Token 对应的整个特征块，鼓励模型更多依赖于上下文语义信息而不是声音信息来填充缺失的标记(或纠正语义错误)。
Single headed attention based sequence-to-sequence model for state-of-the-art results on Switchboard
文中通过实验分析了多种tricks的有效性。
CAT: A CTC-CRF based ASR Toolkit Bridging the Hybrid and the End-to-end Approaches towards Data Efficiency and Low Latency
利用CRF缓解CTC中的条件独立假设问题。
SpecSwap: A Simple Data Augmentation Method for End-to-End Speech Recognition
在时间轴（和频率轴）随机选中两个块然后交换其位置。类似于SpecAugment。
SAN-M: Memory Equipped Self-Attention for End-to-End Speech Recognition
通过阿里之前提出的 DFSMN 增强 self-attention mechanism。
Contextual RNN-T for Open Domain ASR
利用视频字幕来解决语音识别中的实体名称识别问题。
Relative Positional Encoding for Speech Recognition and Direct Translation
在 Transformer 中使用相对位置编码（类似于 Conformer）。
Effect of Adding Positional Information on Convolutional Neural Networks for End-to-End Speech Recognition
卷积网络通常需要较大的感受野才能获得较好的性能。文中通过实验证明，加入位置编码信息后，在较小感受野的情况下也可以达到较好的性能。

mlxu995

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
Interspeech2020 论文阅读笔记

Interspeech2020论文阅读笔记Spoken Term Detection（关键词识别）ASR功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入Spoken Term Detection（关键词识别）Stacked 1D
复制链接

扫一扫