编者语:
- 相较于“AI智能体/AI代理/AI助理”,还是习惯用“AI Agent”
- 感觉 Manus 或许算不上高科技,更多是整合应用落地?当然,整合应用得好也是需要技术含量和智慧的,不多评价,拭目以待吧。
(下面文字主要由 Grok 3 协助生成)根据已有资料整理而成
2025 年 3 月 6 日,Monica.im 推出了一款名为 Manus 的 AI Agent,声称是全球首款完全自主的 AI Agent,吸引了大量关注。本文将尝试探讨 Manus 的技术架构、性能基准、应用场景及其背后的团队,来做介绍。
概要
-
Manus 是中国初创公司“蝴蝶效应”推出的一款完全自主的 AI Agent,专注于处理复杂任务。
-
它可能使用多签名(multisig)系统,结合多个独立 AI 模型,提升任务执行的准确性。
-
研究表明,Manus 在 GAIA 基准测试中表现优异,可能超过 OpenAI 的 Deep Research。
-
其应用包括旅行规划、股票分析、教育材料创建等,潜力巨大,但目前仍需邀请码访问。
Manus 的能力
Manus 被设计为处理复杂和动态任务的通用 AI Agent,与传统 AI 助手(如提供建议或答案的聊天机器人)不同,Manus 能够独立完成整个任务流程。例如,旅行规划、股票分析或创建教育材料。这些能力使其在实际应用中具有显著优势。
从官方网站 Manus 的描述来看,Manus 的名字源自拉丁语“Mens et Manus”(心智与手),象征其将思想转化为行动的能力,体现了其作为 AI Agent的核心理念。
技术架构详解
Manus 的技术核心是其多签名(multisig)系统,这是一种结合多个独立 AI 模型的架构。虽然官方网站未详细说明 multisig 的具体实现,但可以推测其类似于区块链中的多签名钱包,用于通过多个模型的共识提升任务执行的准确性和可靠性。可能的架构包括:
-
模型多样性:使用多种大型语言模型(LLMs)以及其他专门模型,处理自然语言处理、图像处理或网页浏览等任务。
-
共识机制:通过多种模型的输出进行交叉验证,确保最终决策基于多数同意或加权投票,类似于多签名验证。
-
代理框架:支持与环境的交互,如网页浏览、数据操作和工具使用,这使其能够执行多步骤任务。
从相关新闻报道来看,Manus 利用多个独立模型驱动其 multisig 系统,计划在今年晚些时候开源部分模型,特别是推理(postering)部分,这将促进社区的进一步开发和研究。
性能基准:GAIA 测试表现
Manus 在 GAIA 基准测试中表现出色,GAIA 由 Meta AI 等机构开发,旨在评估 AI Agent在推理、多模态处理、网页浏览和工具使用等方面的能力。GAIA 测试包括 466 个问题,分为三个难度级别,人类在测试中的准确率达到 92%,而 GPT-4 配备插件仅为 15%。
根据 GAIA 基准论文,Manus 声称在所有三个难度级别上实现了新的最先进(SOTA)性能,超越了 OpenAI 的 Deep Research。Deep Research 在 GAIA 测试中的单次响应准确率为 67.36%,通过 64 次响应的共识机制提高至 72.57%。虽然 Manus 的具体得分未在公共排行榜上披露,但其团队声称表现优于 Deep Research,这使其在 AI Agent领域处于领先地位。
以下是 GAIA 测试的一些关键数据对比:
系统 | 单次响应准确率 | 共识机制准确率 | 备注 |
---|---|---|---|
人类 | 92% | - | 基准测试的参考标准 |
GPT-4 with plugins | 15% | - | 传统 LLM 的表现 |
Deep Research | 67.36% | 72.57% | OpenAI 的最新 AI Agent |
Manus | >72.57%(预计) | - | 声称超越 Deep Research |
应用场景与潜在影响
Manus 的多功能性使其适用于多个领域:
-
商业自动化:通过自动化工作流程提升生产力,例如生成市场趋势报告或优化供应链。
-
数据驱动决策:提供深入分析,支持金融、科学和工程领域的决策,例如分析 Amazon 的财务报告或 Tesla 股票趋势。
-
教育工具:创建互动式学习材料,如为中学教师设计动量定理的视频演示。
-
客户服务:高效处理复杂客户查询,例如比较保险政策或规划旅行行程。
其广泛的应用潜力可能改变个人和企业与技术的交互方式,推动 AI 向更通用、更智能的方向发展。例如,它可以帮助中小企业进行供应商采购,或为教育机构提供个性化的学习体验。
团队背景与发展历程
Manus 由一家成立于 2023 年的中国 AI 初创公司BUTTERFLY EFFECT(蝴蝶效应)推出,创始人肖弘(Xiao Hong)。肖弘,毕业于华中科技大学,属于一位连续创业者,曾在 2016 年创立为微信公众号运营者提供编辑和数据分析工具的公司,吸引了数百万用户,并于 2020 年出售给一家独角兽公司。在 2022 年大型语言模型浪潮中,他正式创立“蝴蝶效应”公司,专注于海外市场,其产品如“ChatGPT for Google”迅速实现了初步增长。
蝴蝶效应的团队在聊天机器人、AI 编程和浏览器相关技术方面具有丰富经验,这为 Manus 的开发奠定了基础。该公司还与北京蝶变效应科技有限公司相关联,并于 2022 年 7 月获得真格基金的种子轮投资。
争议与未来展望
虽然 Manus 的表现令人印象深刻,但其具体得分和 multisig 系统的技术细节尚未完全公开,这可能引发一些争议,尤其是在 AI 基准测试的透明度和可重复性方面。此外,作为一款邀请制产品,其实际用户反馈和长期表现仍有待观察。
未来,Monica.im 计划开源部分模型,这将有助于社区验证其性能并推动进一步创新。随着 AI Agent 技术的快速发展,Manus 有望在通用人工智能(AGI)领域扮演重要角色,特别是在商业自动化和教育领域的应用。
结论
Manus 代表了 AI Agent 技术的重要突破,其 multisig 系统和 GAIA 基准测试的优异表现使其在竞争中脱颖而出。通过结合多个独立模型和强大的工具使用能力,Manus 展示了从规划到执行的完整自主性,其广泛的应用潜力可能改变个人和企业与技术的交互方式。随着更多细节的披露和社区的参与,Manus 预计将在 AI 领域产生深远影响。
关键引文