ON-TRAC Consortium for End-to-End and Simultaneous Speech Translation Challenge Tasks at IWSLT 2020

最新推荐文章于 2022-01-21 17:48:54 发布

pitaojun

最新推荐文章于 2022-01-21 17:48:54 发布

阅读量208

点赞数

分类专栏：语音识别asr

语音识别asr 专栏收录该内容

26 篇文章 8 订阅

订阅专栏

ON-TRAC Consortium for End-to-End and Simultaneous Speech Translation Challenge Tasks at IWSLT 2020

1.方法总结

（1）模型方法

text-to-text subtask: transformer + wait-k models

Offline sppech translation Track

speech features 80维 mel filterbank + 3 维 pitch features
数据增强方法：速度扰动 0.9-1.1+SpecAugment
文本预处理：去掉非speech 以及非german characters

offline speech translation Track

模型结构

encoder
两层vgg-like block 每一层都是两个2d 卷积加上一层2d maxpooling 最后输入维度（TxD)->(T/4xD/4)
5 层双向lstm
decoder
两层lstm

超参设置
early stop 3 epoches max epoch = 20
dropout = 0.3
解码最大长度 = encoder hidden state length
多模型调整策略：模型相似不同:训练语料， tokenization units , finetuing 和预训练策略。

online MT

常规做法是，wait-k decoding，先读k个source token，然后读一个token, 解一个token，这样交替进行，直到结束。
训练的时候最大化likelihood estimation，只针对一个单一的wait-k 解码路径, $z^k$
在这里插入图片描述
本文的做法是联合优化多条wait-k 路径，认为其他的loss项可以提供更多的训练信号。
具体做法是，在每一个训练epoch, 对source sequence 随机采用一条解码路径然后优化。

Cascaded ASR+MT

延迟大小通过asr系统的endpointing 来控制，MT 系统不做segment 中止的预测，只通过输出结束符来停止翻译，同时句子长度的最大值根据 $\alpha|x_{asr}|+\beta$ 来控制的。
在这里插入图片描述

pitaojun

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ON-TRAC Consortium for End-to-End and Simultaneous Speech Translation Challenge Tasks at IWSLT 2020

ON-TRAC Consortium for End-to-End and Simultaneous Speech Translation Challenge Tasks at IWSLT 20201.方法总结（1）模型方法text-to-text subtask: transformer + wait-k modelsOffline sppech translation Trackspeech features 80维 mel filterbank + 3 维 pitch features数
复制链接

扫一扫