SeamlessM4T—Massively Multilingual & Multimodal Machine Translation

828 篇文章

已下架不支持订阅

SeamlessM4T是一个单一模型,支持100种语言的语音到语音、语音到文本、文本到语音和自动语音识别翻译。使用100万小时的开放式语音数据训练,SeamlessM4T在直接语音到文本翻译中比现有技术提高了20%的BLEU分数,并在多方面展示了优于传统级联模型的性能。该系统在翻译安全性、性别偏见和背景噪声处理方面也有所改进,所有贡献已开源。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列的文章,针对《SeamlessM4T—Massively Multilingual & Multimodal Machine Translation》的翻译。

摘要

如何创建Babel Fish,一个可以帮助个人在任何两种语言之间翻译语音的工具?虽然最近在基于文本的模型方面的突破已经将机器翻译的覆盖范围推到了200多种语言之外,但统一的语音到语音翻译模型尚未取得类似的进展。更具体地说,传统的语音到语音翻译系统依赖于由多个子系统组成的级联系统来逐步执行翻译,这使得可扩展和高性能的统一语音翻译系统遥不可及。为了解决这些差距,我们推出了SeamlessM4T——大规模多语言和多模态机器翻译——一个单一的模型,支持多达100种语言的语音到语音翻译、语音到文本翻译、文本到语音翻译和自动语音识别。为了构建这一点,我们使用了100万小时的开放式语音音频数据来学习w2v-BERT 2.0的自监督语音表示。随后,我们创建了一个多模态的自动对齐语音翻译语料库,名为SeamlessAlign。经过过滤并结合人工标记和伪标记数据(总计406000小时),我们开发了第一个能够将语音和文本从英语翻译成英语的多语言系统。在Fleurs上,SeamlessM4T为翻译成多种目标语言设定了一个新的标准,在直接语音到文本翻译方面比以前的最先进技术提高了20%的BLEU。与强级联模型相比,SeamlessM4T在语音到文本中提高了1.3个BLEU点

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值