抢先OpenAI发布Her,马斯克围观的端到端实时音频模型,前FAIR团队创业打造

一水 发自 凹非寺
量子位 | 公众号 QbitAI

就在刚刚,法国创业团队抢先OpenAI发布端到端实时音频模型——Moshi。

官方直接秀了段现场演示

好家伙,感觉语速比真人还快!甚至还学会了抢答:

很多时候我甚至还没问完它就回答了我的问题!

98315643a15729eccde89616799363f6.png

Moshi主打发布即公开(免费),PyTorch之父也来祝贺,并透露团队成员来自他在FAIR的前同事。

35a216128b105a8929b23e9bd66898dd.png

是的,Moshi也将走开源路线,网友们齐聚一堂呐喊:

35043faa442f9e74ac6b5f37d5421041.png

终于有了能直接上手的东西,网友们自然也是火速开启试玩。

这不,有网友就发现打工人Moshi竟主动抱怨:

工作太忙了,我累了

5f6fb0bb094e09df6c8e571d1ef2ea6a.png

看来天下的打工人都一样。[doge]

所以,喊累的Moshi究竟都会干啥?干的咋样?

Moshi技能拉满

首先,Moshi能够带着70种情绪和风格讲话。

比如,用浓重的法国口音朗诵诗歌、假扮船长冒险,或者凉飕飕地讲鬼故事……

而且谷歌DeepMind研究员、ViT作者Lucas Beyer还观察到:

Moshi基本没有延迟,甚至还打断了演讲者几次

13146934f82c8eb2a774bcf2ec458975.png

不过Beyer也指出,在苹果电脑(MacBook)上的模型偶尔会错误地拒绝一些实时请求。

也许Kyutai对安全调整有点太急切了。
然而,这也证实了演示确实是实时的,甚至可能是自由发挥的。

74360ef93dc53d67886a917803ba633f.png

另外,Moshi作为一款完全端到端的音频模型,能在普通笔记本上使用。

Hugging Face联合创始人Thomas Wolf点出了其中关键

模型训练流程和架构设计简单且极具可扩展性,像Kyutai这样只有8人以上的小团队也能在4个月内建成。合成数据在这里起到了巨大的推动作用。

专注于本地设备,Moshi将无处不在。前沿模型构建者没有动机让你在本地运行较小的模型(按令牌计价……),但像Kyutai这样的非营利组织有着非常不同的动机。

在保持Llama 8B或以上答案质量的同时,将延迟降至300毫秒以下,是提升交互性的关键因素,这是颠覆性的。

9ff9632c70732484c5cd04b4545686cb.png

Kyutai的CEO Patrick Pérez也提到:

Moshi可以“边说话边思考”。
我们相信Moshi具有巨大潜力,可以改变我们与机器交流的方式。

不过也有网友试过后“质疑”发布会是否造假:

130af08643db6df7da1d01c205c6ebe8.png

在他的演示中,Moshi已处于“精神崩溃”边缘,一直在向小哥抱怨压力大,导致小哥完全插不进话。

这一抱怨也引来马斯克的围观:

1ac60a9026f244f775e9e07a478d5cfa.png

在小哥的评论区,网友竟纷纷对Moshi表示同情。

6b238353e7da46ef6a4f0c5f77296185.png

好的,只有小哥受伤的世界达成了。

c726067ba5d1d7cdb30104ff4803e232.jpeg

谁发布了Moshi?

Moshi背后的团队是Kyutai,一家位于巴黎的人工智能研究实验室(非营利)。

Kyutai成立于2023年11月,致力于研究通用AI,投资主要来自欧洲实业资本

公开资料显示,Kyutai由Xavier Niel(法国亿万富翁、法国电信集团Iliad首席执行官)、Rodolphe Saadé (法国物流巨头达飞集团CEO)和Eric Schmidt (前谷歌CEO)各出资1亿欧元共同创立。

9d83528e3717253d0eaec5aa438a88bf.png

关于Moshi,官方介绍它由该实验室的8人研究团队耗时6个月从零开发。

4a4c9fb395f57a9108b03b7c159a32d2.png

在Kyutai官网,其团队显示有6位成员

52e3378da6e9800aa499215680e3db87.png

首席执行官Patrick Pérez,曾在微软担任研究员,谷歌学术主页显示其文章被引用4w+,研究领域包括计算机视觉、图像处理、机器学习和人工智能。

bdbeb88e3a35b0fa18c815eae5ced0dd.png

Edouard Grave,职位名称为Chief Scaling Officer(CSO),可能是一个专为大模型时代设置的职位了。谷歌学术显示,他的主要研究领域包括机器学习、自然语言处理和人工智能。

d05a82daa9d3f9b4396a87f5c7b64433.png

首席科学家Hervé Jégou,加入Kyutai前先后在Facebook AI(8年3个月)和Meta(4年)担任研究科学家,其研究领域涉及机器学习、人工智能、计算机视觉等。

4758cd53f0eacf504106f044b1a842b9.png

首席技术官Laurent Mazaré,GitHub收获了1.9K关注者,曾在DeepMind工作过1年,研究领域涉及深度学习、金融数学、理论计算机科学、密码学和安全等。

53b4c3ab87cae00d43e748c20372ac16.png

Neil Zeghidour,职位名称为Chief Modelling Officer(CMO),这也不是一个常见的企业高层管理职位。加入Kyutai前,他先后在Facebook(3年5个月,语音识别方向)和谷歌(4年9个月,一开始是Google Brain团队的研究科学家)工作,研究领域包括机器学习、语音识别和音频理解等。

3d30a2d9dfa7cdebb8c9c31aa433bd20.png

Alexandre Défossez,职位名称为Founding Scientist,加入Kyutai前是巴黎FAIR的一名研究科学家。研究重点是多模态LLMs,领导了音乐生成研究,并共同领导了AudioCraft框架(涉及Meta开源的一系列音频模型和训练方法)开发。他还与Jean Rémi King博士合作,研究非侵入性脑成像的脑活动解码。

2c6f903a666d620e74679cdba134bd95.png

One More Thing

当Moshi已经飞入百姓家时,鸽王OpenAI再次推迟上线ChatGPT语音助手。

OpenAI表示,需要确保它能安全有效地处理来自数百万用户的请求,还需要一个月才能达到公司的发布标准。

ae4acbd090c699bedfc4295e21676488.png

嗯,估计要到7月底了!对此网友打趣道:

Kyutai推出Moshi基本上等于,把OpenAI还没公开发布的客户产品开源了,向Kyutai致敬。

7e0e6b8d1be48980ceae9a6696988cc4.png

愣着干啥383a4f9b3c986f28dec6b3191a0ffa1f.png玩起来吧~(欢迎在评论区留言反馈)

试玩地址:
https://moshi.chat/?queue_id=talktomoshi
参考链接:
[1]https://x.com/soumithchintala/status/1808593284010213422
[2]https://x.com/Thom_Wolf/status/1808532365720834085
[3]https://x.com/benhylak/status/1808611023123067357
[4]https://x.com/giffmana/status/1808482848808010149

量子位年度AI主题策划正在征集中!

欢迎投稿专题 一千零一个AI应365行AI落地方案

或与我们分享你在寻找的AI产品,或发现的AI新动向

f9978aaaf98f6c1a83b7b23e11e2594b.png

点这里👇关注我,记得标星哦~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值