Meta 新推出的实时语音翻译模型 Seamless

最新推荐文章于 2024-10-09 09:02:05 发布

希尔贝壳AISHELL

最新推荐文章于 2024-10-09 09:02:05 发布

阅读量558

点赞数

分类专栏：智能语音文章标签：人工智能音视频开源

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AI_SHELL/article/details/134999178

版权

智能语音专栏收录该内容

66 篇文章 3 订阅

订阅专栏

项目简介

SeamlessM4T 是我们基础的一体式大规模多语言和多模式机器翻译模型，可为近 100 种语言的语音和文本提供高质量翻译。

SeamlessM4T 模型支持以下任务：

语音到语音翻译 (S2ST)
语音到文本翻译 (S2TT)
文本到语音翻译 (T2ST)
文本到文本翻译 (T2TT)
自动语音识别 (ASR)

我们正在发布 SemalessM4T v2，这是采用我们新颖的 UnitY2 架构的更新版本。与 SeamlessM4T v1 相比，该新模型在质量以及语音生成任务中的推理延迟方面有所改进。

要了解有关 SeamlessM4T 模型集合、每个模型所使用的方法、其语言覆盖范围及其性能的更多信息，请访问 SeamlessM4T 自述文件或模型卡

SeamlessExpressive

SeamlessExpressive 是一种语音到语音翻译模型，可捕捉韵律中某些未充分探索的方面，例如语速和停顿，同时保留语音风格和高内容翻译质量。

要了解有关 SeamlessExpressive 模型的更多信息，请访问 SeamlessExpressive 自述文件或🤗 模型卡

SeamlessStreaming

SeamlessStreaming 是一种流式翻译模型。该模型支持语音作为输入模态和语音/文本作为输出模态。

SeamlessStreaming 模型支持以下任务：

语音到语音翻译 (S2ST)
语音到文本翻译 (S2TT)
自动语音识别 (ASR)

要了解有关 SeamlessStreaming 模型的更多信息，请访问 SeamlessStreaming 自述文件或模型卡

安装

先决条件之一是 fairseq2，它具有仅适用于 Linux x84-86 和 Apple-silicon Mac 计算机的预构建软件包。此外，它还依赖于 libsndfile，而您的计算机上可能没有安装该文件。如果您遇到任何安装问题，请参阅其自述文件以获取进一步说明。

pip install .

转录推理音频以计算指标使用自动安装的 Whisper。Whisper 反过来需要在您的系统上安装命令行工具 ffmpeg ，大多数包管理器都可以提供该工具。

项目链接

https://github.com/facebookresearch/seamless_communication

网站/论文: https://ai.meta.com/research/seamless-communication/

HF: https://huggingface.co/collections/facebook/seamless-communication-6568d486ef451c6ba62c7724

希尔贝壳AISHELL

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。