语音翻译企业应用和研究

本文包括
语音翻译概述
语音翻译建模方法
更优的端到端模型
更优的端到端训练策略
语音翻译(ST)
语音翻译问题和动机
语音翻译在字节的应用
语音翻译问题
将源语言的音频 (speech / audio) 翻译成目标语言的文本 (text)
在这里插入图片描述
语音翻译动机
打破语言障碍,促进人与人之间的沟通与交流、推动文化信息的传播。
在这里插入图片描述
让翻译更简单
视频会议自动字幕和实时翻译 (促进跨国沟通与协作)

在这里插入图片描述
视频自动字幕 (帮助用户理解外语视频)

在这里插入图片描述
AR智能翻译眼镜 (会议实时字幕、面对面翻译、拍照识别翻译)
在这里插入图片描述

建模语音翻译
级联语音翻译 (Cascade)
端到端语音翻译 (End-to-End)
级联语音翻译
串行拼接一个语音识别系统 (ASR) 和一个翻译系统 (MT)
在这里插入图片描述
优势:

  • 可以利用大规模的语音识别和翻译语料

  • 模块化的系统:可以方便地替换ASR/MT系统,以及插入其它干预模块

ASR输出与MT输入不匹配问题:

  • ASR错误,如同音异形字、丢词

  • ASR输出无大小写信息、无标点

-存在很多口语现象,如重复、语气词

模块化系统 — 方便引入额外模块来匹配ASR输出和MT输入
在这里插入图片描述
级联语音翻译系统的挑战
错误传播 (Error Propagation)

  • ASR 存在错误,例如语气词、同音异形字、单词丢失等

  • 小的扰动也会影响翻译质量(翻译鲁棒性问题)
    在这里插入图片描述
    计算复杂度高
    一个模型做到直接从音频生成翻译文本
    得益于“编码器-解码器”(encoder-decoder) 框架的发展
    在这里插入图片描述
    优势

缓解错误传播问题
降低时延、简化服务部署过程
基于Transformer的端到端语音翻译模型
在这里插入图片描述
端到端语音翻译的挑战
音频与文本模态之间的不匹配
缺乏大规模的语音翻译语料:<speech, transcription, translation>
在这里插入图片描述
利用ASR/MT数据增强ST
模型

  • 更优的编码器:LUT (AAAI 2021a); Chimera (ACL 2021)

  • 更优的解码器:COSTT (AAAI 2021b)

训练技巧

  • 渐进多任务学习框架:XSTNet (InterSpeech 2021)

数据增强

  • IWSLT 2021 评测

LUT: Listen Understand and Translate
在这里插入图片描述
在这里插入图片描述
Chimera: 从认知神经科学到语音翻译
Q: 听歌会不会影响工作效率?

认知神经科学 (Cognitive Neuroscience): 声音和文字信号传入大脑后会共享部分

处理路径
在这里插入图片描述
Chimera: 学习共享语义空间
在这里插入图片描述
在这里插入图片描述
Chimera: 共享语义空间可视化
在这里插入图片描述
COSTT: 转写-翻译连续生成方法
Q: 模型如何像译员一样做速记?
在这里插入图片描述
在这里插入图片描述
XSTNet: 更好地利用数据
<audio, transcript, translation> 拆解用于ASR、MT、ST三个子任务
在这里插入图片描述
XSTNet: Cross Speech-Text Network
引入语言标识来区分不同的任务
在这里插入图片描述
在这里插入图片描述
XSTNet: 渐进多任务学习框架 (Progressive Multi-Task)
在这里插入图片描述
端到端语音翻译研究小结
利用额外的ASR/MT数据来增强ST系统

模型

  • 更优的编码器:

  • LUT: 听到之后先思考,再翻译

  • Chimera: 视、听结合

  • 更优的解码器:COSTT 像译员一样先做速记

训练技巧

  • 渐进多任务学习框架:XSTNet ASR/MT/ST模型三合一

IWSLT 2021: 离线语音翻译评测
利用更大规模的ASR/MT数据,以及由MT生成的伪ST数据 (pseudo labeling, KD, forward translation)
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值