全球最大开源翻译模型!Meta出品,支持100种语音、语言!

专注AIGC领域的专业社区,关注OpenAI、百度文心一言等大语言模型(LLM)的发展和应用落地,关注LLM的基准评测和市场研究,欢迎关注!

8月23日,全球社交、科技巨头Meta(Facebook、Instagram等母公司)在官网宣布,开源多语音、语言,翻译、转录大模型SeamlessM4T。(开源地址:https://github.com/facebookresearch/seamless_communication)

据Meta介绍,SeamlessM4T是首个一体化AI翻译大模型,支持100种语音、语言翻译,可执行语音到文本、语音到语音、文本到语音和文本到文本的多模式翻译任务。例如,将一段英文语音,自动翻译成地方中文语音(如闽南话)。

此外,SeamlessM4T集成了Meta之前发布的NLLB、MMS等翻译模型,并使用了270,000小时的语音和文本对齐数据。所以,这也是目前规模最大、功能最全的开源翻译模型。

论文:https://ai.meta.com/research/publications/seamless-m4t/

在线演示:https://seamless.metademolab.com/

huggingface演示:https://huggingface.co/spaces/facebook/seamless_m4t

翻译展示

SeamlessM4T简单介绍

目前,多数翻译产品只能翻译常规语音、语音,例如,中文、法语、德语、英语等,对于那些冷门使用较少的语言支持较差。

SeamlessM4T在技术层面实现了巨大突破,支持多达100种语音、语言,同时与单一翻译产品相比,翻译效率/质量、降低延迟方面更优秀,使得全球不同地区的人可以实现流程的交流。

6482f0366c509b10b3227d0de5e46a28.png

Meta表示,SeamlessM4T能实现多模式翻译功能,主要由多款功能强大的翻译模型组合而成。

No Language Left Behind (NLLB):Meta在2022年7月6日发布的一款支持200种语言的翻译模型,对于一些冷门语言支持较好,平均翻译准确率提升了70%以上。该模型已经为维基百科提供翻译服务。

31705cf060ad9d07bfc4f946a172b807.png

通用语音翻译器:Meta在2022年10月19日发布的一款语音到语音的通用翻译器,可翻译、识别多种地方口头语言,例如,闽南语,打破了不同地区之间的沟通障碍。

Massively Multilingual Speech(MMS):Meta在今年5月22日发布的超大规模语音、语言AI模型,可识别4,000多种口语,支持1,100多种文本转语音、语音转文本和语音合成。

从上述产品介绍不难看出,Meta将自己所有单领域最强AI翻译模型集成在一起,组合成了翻译界的“变形金刚”SeamlessM4T。

SeamlessM4T训练数据

SeamlessM4T能支持如此多的语音、语言翻译,主要得益于高质量训练数据集,包括语音到文本、语音到语音、文本到文本等。但仅靠人工翻译和转录的语音、文本数据根无法满足100种语言。

所以,Meta为200种语言构建了一个名为SONAR的,大规模多语言和模态文本嵌入空间。该方法在多语言相似性搜索中,大大优于LASER3或LaBSE 等。再将SONAR的方法同步扩展至语音模态,目前涵盖36种语言。

bbcf72f49da9264357f3ed8fc67988d8.png

此外,Meta通过对公开网络数据(数百亿个句子)和语音存储库(400 万小时)进行数据挖掘,获得了443,000小时的语音与文本对齐数据,以及创建约29,000小时的语音到语音对齐数据。然后对SeamlessM4T进行预训练和微调。

评测结果

SeamlessM4T在100种语言中实现了最先进的翻译结果,并在自动语音识别、语音转文本、语音转语音、文本转语音和文本转语音等,实现了多任务支持、文本翻译全部在一个模型中完成。

cc6e542156d229ea82fe48821609c424.png

为了在不依赖基于文本的指标的情况下更准确地进行评估,Meta将无文本指标扩展到 BLASER 2.0,可以跨语音和文本单元进行评估,其准确性与前身相似。

在进行鲁棒性测试时,与当前最先进的翻译模型相比,SeamlessM4T在语音转文本任务中针对背景噪声和说话人变化的表现更好,平均分别提高了37%和48%。

Meta还显着提高了所支持的中低资源语言的性能,并保持了高资源语言的强劲性能。

本文素材来源Meta官网,如有侵权请联系删除

END

04f68b770d6842e54be7c4193a8dfd3a.png

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
去年,谷歌发布了 Google Neural Machine Translation (GNMT),即谷歌神经机器翻译,一个 sequence-to-sequence (“seq2seq”) 的模型。现在,它已经用于谷歌翻译的产品系统。   虽然消费者感受到的提升并不十分明显,谷歌宣称,GNMT 对翻译质量带来了巨大飞跃。   但谷歌想做的显然不止于此。其在官方博客表示:“由于外部研究人员无法获取训练这些模型的框架,GNMT 的影响力受到了束缚。”   如何把该技术的影响力最大化?答案只有一个——开源。   因而,谷歌于昨晚发布了 tf-seq2seq —— 基于 TensorFlow 的 seq2seq 框架。谷歌表示,它使开发者试验 seq2seq 模型变得更方便,更容易达到一流的效果。另外,tf-seq2seq 的代码库很干净并且模块化,保留了全部的测试覆盖,并把所有功能写入文件。   该框架支持标准 seq2seq 模型的多配置,比如编码器/解码器的深度、注意力机制(attention mechanism)、RNN 单元类型以及 beam size。这样的多功能性,能帮助研究人员找到最优的超参数,也使它超过了其他框架。详情请参考谷歌论文《Massive Exploration of Neural Machine Translation Architectures》。   上图所示,是一个从中文到英文的 seq2seq 翻译模型。每一个时间步骤,编码器接收一个汉字以及它的上一个状态(黑色箭头),然后生成输出矢量(蓝色箭头)。下一步,解码器一个词一个词地生成英语翻译。在每一个时间步骤,解码器接收上一个字词、上一个状态、所有编码器的加权输出和,以生成下一个英语词汇。雷锋网(公众号:雷锋网)提醒,在谷歌的执行中,他们使用 wordpieces 来处理生僻字词。   据雷锋网了解,除了机器翻译,tf-seq2seq 还能被应用到其他 sequence-to-sequence 任务上;即任何给定输入顺序、需要学习输出顺序的任务。这包括 machine summarization、图像抓取、语音识别、对话建模。谷歌自承,在设计该框架时可以说是十分地仔细,才能维持这个层次的广适性,并提供人性化的教程、预处理数据以及其他的机器翻译功能。   谷歌在博客表示: “我们希望,你会用 tf-seq2seq 来加速(或起步)你的深度学习研究。我们欢迎你对 GitHub 资源库的贡献。有一系列公开的问题需要你的帮助!”   GitHub 地址:https://github.com/google/seq2seq   GitHub 资源库:https://google.github.io/seq2seq/nmt/ 标签:tensorflow  seq2seq  谷歌  机器学习
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值