本文包括
语音翻译概述
语音翻译建模方法
更优的端到端模型
更优的端到端训练策略
语音翻译(ST)
语音翻译问题和动机
语音翻译在字节的应用
语音翻译问题
将源语言的音频 (speech / audio) 翻译成目标语言的文本 (text)
语音翻译动机
打破语言障碍,促进人与人之间的沟通与交流、推动文化信息的传播。
让翻译更简单
视频会议自动字幕和实时翻译 (促进跨国沟通与协作)
视频自动字幕 (帮助用户理解外语视频)
AR智能翻译眼镜 (会议实时字幕、面对面翻译、拍照识别翻译)
建模语音翻译
级联语音翻译 (Cascade)
端到端语音翻译 (End-to-End)
级联语音翻译
串行拼接一个语音识别系统 (ASR) 和一个翻译系统 (MT)
优势:
-
可以利用大规模的语音识别和翻译语料
-
模块化的系统:可以方便地替换ASR/MT系统,以及插入其它干预模块
ASR输出与MT输入不匹配问题:
-
ASR错误,如同音异形字、丢词
-
ASR输出无大小写信息、无标点
-存在很多口语现象,如重复、语气词
模块化系统 — 方便引入额外模块来匹配ASR输出和MT输入
级联语音翻译系统的挑战
错误传播 (Error Propagation)
-
ASR 存在错误,例如语气词、同音异形字、单词丢失等
-
小的扰动也会影响翻译质量(翻译鲁棒性问题)
计算复杂度高
一个模型做到直接从音频生成翻译文本
得益于“编码器-解码器”(encoder-decoder) 框架的发展
优势
缓解错误传播问题
降低时延、简化服务部署过程
基于Transformer的端到端语音翻译模型
端到端语音翻译的挑战
音频与文本模态之间的不匹配
缺乏大规模的语音翻译语料:<speech, transcription, translation>
利用ASR/MT数据增强ST
模型
-
更优的编码器:LUT (AAAI 2021a); Chimera (ACL 2021)
-
更优的解码器:COSTT (AAAI 2021b)
训练技巧
- 渐进多任务学习框架:XSTNet (InterSpeech 2021)
数据增强
- IWSLT 2021 评测
LUT: Listen Understand and Translate
Chimera: 从认知神经科学到语音翻译
Q: 听歌会不会影响工作效率?
认知神经科学 (Cognitive Neuroscience): 声音和文字信号传入大脑后会共享部分
处理路径
Chimera: 学习共享语义空间
Chimera: 共享语义空间可视化
COSTT: 转写-翻译连续生成方法
Q: 模型如何像译员一样做速记?
XSTNet: 更好地利用数据
<audio, transcript, translation> 拆解用于ASR、MT、ST三个子任务
XSTNet: Cross Speech-Text Network
引入语言标识来区分不同的任务
XSTNet: 渐进多任务学习框架 (Progressive Multi-Task)
端到端语音翻译研究小结
利用额外的ASR/MT数据来增强ST系统
模型
-
更优的编码器:
-
LUT: 听到之后先思考,再翻译
-
Chimera: 视、听结合
-
更优的解码器:COSTT 像译员一样先做速记
训练技巧
- 渐进多任务学习框架:XSTNet ASR/MT/ST模型三合一
IWSLT 2021: 离线语音翻译评测
利用更大规模的ASR/MT数据,以及由MT生成的伪ST数据 (pseudo labeling, KD, forward translation)