语音翻译企业应用和研究

最新推荐文章于 2024-10-17 17:26:49 发布

Necther

最新推荐文章于 2024-10-17 17:26:49 发布

阅读量513

点赞数

分类专栏：自然语言处理文章标签：语音识别人工智能

本文链接：https://blog.csdn.net/u011983997/article/details/122600377

版权

自然语言处理专栏收录该内容

69 篇文章 6 订阅

订阅专栏

本文包括
语音翻译概述
语音翻译建模方法
更优的端到端模型
更优的端到端训练策略
语音翻译(ST)
语音翻译问题和动机
语音翻译在字节的应用
语音翻译问题
将源语言的音频 (speech / audio) 翻译成目标语言的文本 (text)
在这里插入图片描述
语音翻译动机
打破语言障碍，促进人与人之间的沟通与交流、推动文化信息的传播。

让翻译更简单
视频会议自动字幕和实时翻译 (促进跨国沟通与协作)

在这里插入图片描述
视频自动字幕 (帮助用户理解外语视频)

在这里插入图片描述
AR智能翻译眼镜 (会议实时字幕、面对面翻译、拍照识别翻译)

建模语音翻译
级联语音翻译 (Cascade)
端到端语音翻译 (End-to-End)
级联语音翻译
串行拼接一个语音识别系统 (ASR) 和一个翻译系统 (MT)
在这里插入图片描述
优势：

可以利用大规模的语音识别和翻译语料
模块化的系统：可以方便地替换ASR/MT系统，以及插入其它干预模块

ASR输出与MT输入不匹配问题：

ASR错误，如同音异形字、丢词
ASR输出无大小写信息、无标点

-存在很多口语现象，如重复、语气词

模块化系统 — 方便引入额外模块来匹配ASR输出和MT输入
在这里插入图片描述
级联语音翻译系统的挑战
错误传播 (Error Propagation)

ASR 存在错误，例如语气词、同音异形字、单词丢失等
小的扰动也会影响翻译质量（翻译鲁棒性问题）

计算复杂度高
一个模型做到直接从音频生成翻译文本
得益于“编码器-解码器”(encoder-decoder) 框架的发展

优势

缓解错误传播问题
降低时延、简化服务部署过程
基于Transformer的端到端语音翻译模型
在这里插入图片描述
端到端语音翻译的挑战
音频与文本模态之间的不匹配
缺乏大规模的语音翻译语料：<speech, transcription, translation>

利用ASR/MT数据增强ST
模型

更优的编码器：LUT (AAAI 2021a); Chimera (ACL 2021)
更优的解码器：COSTT (AAAI 2021b)

训练技巧

渐进多任务学习框架：XSTNet (InterSpeech 2021)

数据增强

IWSLT 2021 评测

LUT: Listen Understand and Translate
在这里插入图片描述

Chimera: 从认知神经科学到语音翻译
Q: 听歌会不会影响工作效率？

认知神经科学 (Cognitive Neuroscience): 声音和文字信号传入大脑后会共享部分

处理路径
在这里插入图片描述
Chimera: 学习共享语义空间

Chimera: 共享语义空间可视化

COSTT: 转写-翻译连续生成方法
Q: 模型如何像译员一样做速记？

XSTNet: 更好地利用数据
<audio, transcript, translation> 拆解用于ASR、MT、ST三个子任务
在这里插入图片描述
XSTNet: Cross Speech-Text Network
引入语言标识来区分不同的任务

XSTNet: 渐进多任务学习框架 (Progressive Multi-Task)

端到端语音翻译研究小结
利用额外的ASR/MT数据来增强ST系统