实时多模态大模型

Ai君臣

于 2024-07-26 20:26:29 发布

阅读量86

点赞数 1

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liuchenbaidu/article/details/140724118

版权

1、GPT4o

不开源

2、Moshi

开源模型来自法国一个仅有 8 人的非营利性 AI 研究机构 ——Kyutai，模型名为 Moshi，具备听、说、看的多模态功能。图灵奖得主 Yann LeCun 转发说道：「Moshi 能听懂带有法国口音的英语。」据悉，该团队开发这个模型仅用了 6 个月。

Moshi 的背后：合成数据立大功

Moshi 的设计目的是理解和表达情感，具有诸如用不同口音（包括法语）说话的能力。它可以聆听和生成音频和语音，同时保持文本思维的无缝流动。Moshi 的一个突出特点是能够同时处理两个音频流，使其可以同时聆听和说话。这种实时交互基于文本和音频混合的联合预训练，利用来自 Helium 的合成文本数据，这是一个由 Kyutai 开发的 70 亿参数语言模型。

展望未来，Kyutai 对 Moshi 有雄心勃勃的计划。团队计划发布技术报告和开放模型版本，包括推理代码库、7B 模型、音频编解码器和完整的优化堆栈。未来版本如 Moshi 1.1、1.2 和 2.0 将根据用户反馈改进模型。Moshi 的许可旨在尽可能宽松，促进广泛采用和创新

3、SpeechGPT2

2024年7月复旦大学近日公布一款新款语音模型SpeechGPT2，不仅能够理解语音和文本，还能够在这两者之间自如转换。

SpeechGPT2使用了一种超低比特率的语音编解码器(750bps),

简单来说就是它能够感知和表达情感，并根据上下文和人类指令提供多种风格的语音响应。无论是说唱、戏剧、机器人、搞笑还是低语，SpeechGPT都能够根据需要生成相应风格的语音，这得益于其超过10万小时的学术和野外收集的语音数据，这些数据涵盖了丰富的语音场景和风格。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
实时多模态大模型

实时多模态
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Ai君臣 学会的就要教给人

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。