Leave it to Manus —— Manus AI Agent 技术介绍

编者语:

  • 相较于“AI智能体/AI代理/AI助理”,还是习惯用“AI Agent”
  • 感觉 Manus 或许算不上高科技,更多是整合应用落地?当然,整合应用得好也是需要技术含量和智慧的,不多评价,拭目以待吧。

(下面文字主要由 Grok 3 协助生成)根据已有资料整理而成

         2025 年 3 月 6 日,Monica.im 推出了一款名为 Manus 的 AI Agent,声称是全球首款完全自主的 AI Agent,吸引了大量关注。本文将尝试探讨 Manus 的技术架构、性能基准、应用场景及其背后的团队,来做介绍。

概要

  • Manus 是中国初创公司“蝴蝶效应”推出的一款完全自主的 AI Agent,专注于处理复杂任务。

  • 它可能使用多签名(multisig)系统,结合多个独立 AI 模型,提升任务执行的准确性。

  • 研究表明,Manus 在 GAIA 基准测试中表现优异,可能超过 OpenAI 的 Deep Research。

  • 其应用包括旅行规划、股票分析、教育材料创建等,潜力巨大,但目前仍需邀请码访问。

Manus 的能力

Manus 被设计为处理复杂和动态任务的通用 AI Agent,与传统 AI 助手(如提供建议或答案的聊天机器人)不同,Manus 能够独立完成整个任务流程。例如,旅行规划、股票分析或创建教育材料。这些能力使其在实际应用中具有显著优势。

从官方网站 Manus 的描述来看,Manus 的名字源自拉丁语“Mens et Manus”(心智与手),象征其将思想转化为行动的能力,体现了其作为 AI Agent的核心理念。

技术架构详解

Manus 的技术核心是其多签名(multisig)系统,这是一种结合多个独立 AI 模型的架构。虽然官方网站未详细说明 multisig 的具体实现,但可以推测其类似于区块链中的多签名钱包,用于通过多个模型的共识提升任务执行的准确性和可靠性。可能的架构包括:

  • 模型多样性:使用多种大型语言模型(LLMs)以及其他专门模型,处理自然语言处理、图像处理或网页浏览等任务。

  • 共识机制:通过多种模型的输出进行交叉验证,确保最终决策基于多数同意或加权投票,类似于多签名验证。

  • 代理框架:支持与环境的交互,如网页浏览、数据操作和工具使用,这使其能够执行多步骤任务。

从相关新闻报道来看,Manus 利用多个独立模型驱动其 multisig 系统,计划在今年晚些时候开源部分模型,特别是推理(postering)部分,这将促进社区的进一步开发和研究。

性能基准:GAIA 测试表现

Manus 在 GAIA 基准测试中表现出色,GAIA 由 Meta AI 等机构开发,旨在评估 AI Agent在推理、多模态处理、网页浏览和工具使用等方面的能力。GAIA 测试包括 466 个问题,分为三个难度级别,人类在测试中的准确率达到 92%,而 GPT-4 配备插件仅为 15%。

根据 GAIA 基准论文,Manus 声称在所有三个难度级别上实现了新的最先进(SOTA)性能,超越了 OpenAI 的 Deep Research。Deep Research 在 GAIA 测试中的单次响应准确率为 67.36%,通过 64 次响应的共识机制提高至 72.57%。虽然 Manus 的具体得分未在公共排行榜上披露,但其团队声称表现优于 Deep Research,这使其在 AI Agent领域处于领先地位。

以下是 GAIA 测试的一些关键数据对比:

系统

单次响应准确率

共识机制准确率

备注

人类

92%

-

基准测试的参考标准

GPT-4 with plugins

15%

-

传统 LLM 的表现

Deep Research

67.36%

72.57%

OpenAI 的最新 AI Agent

Manus

>72.57%(预计)

-

声称超越 Deep Research

应用场景与潜在影响

Manus 的多功能性使其适用于多个领域:

  • 商业自动化:通过自动化工作流程提升生产力,例如生成市场趋势报告或优化供应链。

  • 数据驱动决策:提供深入分析,支持金融、科学和工程领域的决策,例如分析 Amazon 的财务报告或 Tesla 股票趋势。

  • 教育工具:创建互动式学习材料,如为中学教师设计动量定理的视频演示。

  • 客户服务:高效处理复杂客户查询,例如比较保险政策或规划旅行行程。

其广泛的应用潜力可能改变个人和企业与技术的交互方式,推动 AI 向更通用、更智能的方向发展。例如,它可以帮助中小企业进行供应商采购,或为教育机构提供个性化的学习体验。

团队背景与发展历程

Manus 由一家成立于 2023 年的中国 AI 初创公司BUTTERFLY EFFECT(蝴蝶效应)推出,创始人肖弘(Xiao Hong)。肖弘,毕业于华中科技大学,属于一位连续创业者,曾在 2016 年创立为微信公众号运营者提供编辑和数据分析工具的公司,吸引了数百万用户,并于 2020 年出售给一家独角兽公司。在 2022 年大型语言模型浪潮中,他正式创立“蝴蝶效应”公司,专注于海外市场,其产品如“ChatGPT for Google”迅速实现了初步增长。

蝴蝶效应的团队在聊天机器人、AI 编程和浏览器相关技术方面具有丰富经验,这为 Manus 的开发奠定了基础。该公司还与北京蝶变效应科技有限公司相关联,并于 2022 年 7 月获得真格基金的种子轮投资。

争议与未来展望

虽然 Manus 的表现令人印象深刻,但其具体得分和 multisig 系统的技术细节尚未完全公开,这可能引发一些争议,尤其是在 AI 基准测试的透明度和可重复性方面。此外,作为一款邀请制产品,其实际用户反馈和长期表现仍有待观察。

未来,Monica.im 计划开源部分模型,这将有助于社区验证其性能并推动进一步创新。随着 AI Agent 技术的快速发展,Manus 有望在通用人工智能(AGI)领域扮演重要角色,特别是在商业自动化和教育领域的应用。

结论

Manus 代表了 AI Agent 技术的重要突破,其 multisig 系统和 GAIA 基准测试的优异表现使其在竞争中脱颖而出。通过结合多个独立模型和强大的工具使用能力,Manus 展示了从规划到执行的完整自主性,其广泛的应用潜力可能改变个人和企业与技术的交互方式。随着更多细节的披露和社区的参与,Manus 预计将在 AI 领域产生深远影响。


关键引文

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

俊哥V

这是个嘛?

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值