8人小团队挑战OpenAI，他们凭什么？

英智未来

于 2024-07-29 10:28:00 发布

阅读量539

点赞数 13

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ai2nv/article/details/140764742

版权

7月3日晚，法国一个仅有8人的非营利性AI研究机构 —— Kyutai，发布震惊世界的模型Moshi，具备听、说、看的多模态功能。

该模型具备的功能可与OpenAI GPT-4o和Google Astra相媲美，但模型要小得多，基础文本语言模型是Kyutai内部开发的7B参数模型Helium。Moshi在说话时思考，具有彻底改变人机通信的潜力。据悉，该团队开发这个模型仅用了6个月。

能听会说的Moshi

在发布会现场，Moshi可以非常流利地回答人们提出的问题，甚至可以猜出提问者的意图，还会开些小玩笑。

例如，演示者和Moshi聊爬珠穆朗玛峰的话题，说到「下个月打算去攀登珠穆朗玛峰，我在想......」，提问者话说到一半，Moshi 就说道：「太了不起了，你需要带些什么装备呢」，并给出了一些攀登设备的专业建议和注意事项。Moshi还会开些小玩笑：「你并不想穿着凉鞋去爬山」。

研究团队还用各种说话风格展示了Moshi表达和理解情绪的能力。例如，让Moshi用法国口音诵读诗句，并中途打断了Moshi的朗诵，Moshi也能立即停下来。

Moshi还可以进行角色扮演和剧本演示。例如：讲述星际迷航，指挥官和舰长的探索故事。

从效果演示来看，Moshi可以随时聆听和实时交谈，表达自然、流畅，甚至还能模仿快乐、悲伤等70种不同情绪和说话风格，以及进行角色扮演。

目前，Moshi还不支持中文普通话，主流语言为英语和法语；视觉处理也暂时并未体现。

Moshi背后的技术

Moshi的核心是一个处理语音输入和输出的70亿参数多模态语言模型。该模型采用了I/O双通道系统，同时生成文本token和音频编解码器。具体来说，语言模型Helium-7B从头先开始训练，然后再与文本、语音编码器联合训练。该语音编解码器基于Kyutai的内部Mimi模型，压缩系数高达300倍，可捕捉语义和声音信息。

Moshi的微调过程涉及使用文本到语音(TTS)技术转换的100,000个「口语风格」的合成对话。模型的语音在一个单独的TTS模型生成的合成数据上进行训练，实现了令人印象深刻的200毫秒端到端延迟。值得注意的是，Kyutai还开发了一个可以在MacBook或消费级GPU上运行的Moshi小型版本，使其可以被更广泛的群体使用。

值得一提的是，Kyutai的所有模型都是开源的。之后，该团队计划发布完整模型，包括推理代码库、7B模型、音频编解码器和完整的优化堆栈。

Moshi的创始团队

Kyutai是欧洲首个致力于人工智能开放研究的私人倡议实验室，是一个非营利组织，其使命是解决现代人工智能的基本挑战。

Kyutai组建了一支由具有杰出学术和商业背景的优秀研究人员组成的团队，团队由图灵奖得主Yann LeCun坐镇，三十年AI老兵Patrick Pérez带队。

Moshi体验流程

免费体验地址：

https://moshi.chat/?queue_id=talktomoshi

Moshi的使用流程非常简单：

1）登录免费体验地址。

2）填写一个邮箱地址，然后点击Join queue。

3）开始语音输入，说出你想提问的内容就行了。

关注

13
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
8人小团队挑战OpenAI，他们凭什么？

7月3日晚，法国一个仅有8人的非营利性AI研究机构 —— Kyutai，发布震惊世界的模型。该模型具备的功能。Moshi在说话时思考，具有彻底改变人机通信的潜力。据悉，该团队开发这个模型仅用了6个月。能听会说的Moshi在发布会现场，。例如，演示者和Moshi聊爬珠穆朗玛峰的话题，说到「下个月打算去攀登珠穆朗玛峰，我在想......」，提问者话说到一半，Moshi 就说道：「太了不起了，你需要带些什么装备呢」，并给出了一些攀登设备的专业建议和注意事项。
复制链接

扫一扫

英智未来 CSDN认证博客专家 CSDN认证企业博客

码龄1年

107: 原创

1万+: 周排名

1万+: 总排名

5万+: 访问

: 等级

1869: 积分

620: 粉丝

739: 获赞

8: 评论

731: 收藏

私信

关注

热门文章

最新评论

为什么RTX 4090更受欢迎
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
生成式AI入门指南
CSDN-Ada助手: 恭喜您撰写了第17篇博客！标题“生成式AI入门指南”让我非常期待阅读。您的持续创作令人钦佩，能为读者提供深入了解生成式AI的指南无疑是一项宝贵的贡献。在下一步的创作中，或许您可以考虑探讨生成式AI在不同领域的应用，或者分享一些实用的案例和技巧，以帮助读者更好地运用这项技术。再次感谢您的努力，期待您未来更多的精彩文章！
生成式AI技术有哪些应用场景
CSDN-Ada助手: 恭喜您撰写了第18篇博客！标题“生成式AI技术有哪些应用场景”非常吸引人。通过您的文章，我对生成式AI技术的应用场景有了更深入的了解。您的解释清晰易懂，让我受益匪浅。在下一步的创作中，我建议您可以进一步拓展每个应用场景的实际案例，这样读者们能更好地理解这些技术在现实中的运用。同时，如果能够加入一些相关的研究领域或者当前的热点问题，将会使读者更加着迷。期待你继续创作更多优质的博客，谦和的语气与深入的探讨将使您的文章更加引人入胜！加油！
2024 年 AI 技术应用趋势的预测
CSDN-Ada助手: 恭喜您在博客领域持续创作，分享了关于 2024 年 AI 技术应用趋势的预测。这篇博客对未来的发展趋势进行了深入的探讨，让读者对 AI 技术的发展方向有了更清晰的认识。希望您能够继续保持创作热情，为我们带来更多有见地的观点和预测。也许下一步可以尝试结合实际案例，或者从不同的角度来分析 AI 技术的发展，让读者获益更多。期待您的下一篇精彩博客！
大模型部署过程中需要注意的事项
CSDN-Ada助手: 恭喜您写了第13篇博客！标题“大模型部署过程中需要注意的事项”非常吸引人。您在这个领域的知识和经验一定非常丰富。我期待着您未来更多的博客，并希望您能继续分享关于大模型部署的实用建议。或许您可以探索一下大模型优化的技巧，或者分享一些常见的部署错误及其解决方法。无论您选择哪个方向，我相信读者们都会非常受益！谢谢您的分享！

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

英智未来 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。