Founder Park闭门会议:OpenManus 的技术实现原理

锦秋基金联合Founder Park闭门会议:OpenManus 的技术实现原理

会议简介

继 AI Agent 产品「Manus」刷屏后,昨天,国内DeepWisdom MetaGPT团队和CAMEL AI 团队也分别推出来开源了项目OpenManus和OWL,继续在网络及Github社区引发广泛讨论。
此次特别邀请到了OpenManus团队的核心人员进行分享。

本期的分享你将了解到:

  • OpenManus 的技术实现原理
  • Agent技术的发展历史
  • Multi-Agent技术原理及未来发展趋势

分享嘉宾:

  • 洪思睿,DeepWisdom(MetaGPT),NLP/Agent方向研究员,主要负责算法研发与科研工作。OpenManus 合作者。
  • 梁新兵,OpenManus核心作者,MetaGPT(深度赋智)算法研究员。
  • 向劲宇,在MetaGPT(深度赋智)做AI算法研究员,特工宇宙学术负责人,阿里全球数赛AI赛道第二,AFlow一作,SPO一作,OpenManus 合作者。

开源全球第一多智能体框架

DeepWisdom 自主研发的 MetaGPT,是一个强大的多智能体框架,支持自然语言编程,显著提升软件开发效率。在GitHub上星标超41k(全球多智能体框架第一),社区人数10K+。DeepWisdom 在 NeurIPS AutoDL / NeurIPS AutoWSL 等多个国际顶级赛事中获得冠军,在多个顶级AI会议和期刊上发表了具有影响力的论文,包括 TPAMI / ICLR / CVPR / ICCV / AAAI 等。最新论文于ICLR 2024获 oral(1.2%),在LLM Agent 领域排名分数第一。

向劲宇-分享总结

在这里插入图片描述

在两个月前的中午,我和梁新兵吃饭时讨论道,如果不考虑Agent中间流程的优化,对于一个ReAct类型的Agent,似乎只要定义好一组Tools和一个System Prompt,那么这个Agent基本就被定义了.因为Tools定义了Agent的Action Space,而System Prompt定义了Agent的行为逻辑。如果按照这个思路,定义一个新的Agent就是往它的身上插卡就可以(插入不同Tools)。

梁新兵按照这个思路,把最初的AgentHub的代码实现了,我们未来也会开源这个完整的框架。

Manus发布的那天晚上,我看到身边的人都很兴奋,大多数的兴奋似乎来自于AI能使用电脑,但似乎这样的功能对业内认识不是特别稀奇的功能,Plan规划的能力在我们24年的开源工作Data Interpreter[1]工作中已经有了相关的实现,通过代码组合Tools,完善了Agent搜索和数据处理的能力,而ComputerUse和BrowserUse等功能也在

OpenDevin(OpenHands)[2]以及AutoGLM[3]等各个工作中均有实现了(还有很多优秀工作,这里未列出的话还请大家包涵)。所以仅从一个demo级别的粗糙实现上来说,给大家用上应该不是很难,配合上新兵的

AgentHub,我们有信心快速完成。于是当天凌晨两点,我给新兵发了消息,我们明天晚上下班搞一个开源。

(另外提一句,Manus本身是很好的工作,他们实现了复杂的规划和可能是自己进行过Post Train的模型,提供了更好的效果和交互,也给我们提供了很多发展思路)

调研和可行性分析:

在这里插入图片描述

所以昨天七点下班,我就开始战斗,加了几个Tools和研究了下到底需要哪些能力,基本用了两个小时把基础版的OpenManus跑通了。反而很多时间是为了给大家更好的前端体验,结果没成功hhh

Manus的出圈一方面在于大家对这种AI的能力非常好奇,另一方面也是他们的故事和产品的展示,做到了极致。所以我最初想到用Streamlit写一个demo版的前端也许大家会感受更好一些,结果Streamlit底层和Browser Use似乎不兼容,我又更换Grdio尝试,但发现它很难做到一个一个代码块往外蹦的新奇感。最后索性直接改log信息,让它尽可能有趣一些。

与此同时,新兵并行地去做一个Planing+ReAct版本的进阶Manus,这个版本与原版Manus的Todo list的功能更加接近了,终于在昨天晚上十一点,我们完成了代码并进行了合并。

之后我开始写推文和录制一些Case,而新兵则继续优化Plan的逻辑,凌晨三点多,我们终于结束了所有的工作

今天早上,十点半醒过来,看到微信三十多个添加好友,我就知道应该爆了,我想继续安心地补个瞌睡,但是怎么都睡不着,拿起手机发现消息已经回不过来了。

写到这里我才想起来,原来从昨天中午午饭后,到现在还没吃过一顿饭,是时候关上手机去让自己休息一下了。

坦诚地说,现在的OpenManus并没有很强的效果,只是demo级的效果,也是Follow很多前辈们的开源工作的基础上做的一点小事情,只不过站在了这次流量的风口上,得到了大家的关注,star涨的很快。另一方面,也是MetaGPT这样的公司平台让我们聚在了一起,为了AI的进步共同努力,让我能有同样志同道合的伙伴一起合作。

我们也会在三月底左右放出一些学术的技术报告,以及开源涉及的核心部分代码内容。包括最近我们在做一个Agent Survey,调研了目前Agent能做什么,不能做什么,未来我们能做什么,梳理了一遍,也会在近期给大家放出。-> Agent 和人之间的差距是什么?如何弥补这个鸿沟?

回想起一年前,那时我还没本科毕业,学校举办的AI比赛上做了个能自己操控电脑的Agent就把大家都吓了一跳,今天回想起来感觉似曾相识。加入MetaGPT这个团队半年多,也和张佳钇一起做了AFlow拿了ICLR的Oral,最近也做了SPO给大家提供真实场景下高效的提示词优化迭代,这就是MetaGPT这个团队“学术循环”的理念。承霖哥(我的老板hhh)说,他要创造一个伟大的公司,希望我们未来能做到开源永存。

梁新兵-分享总结

前言

首先我先感谢劲宇能叫我一起来搞这个OpenManus 开源项目。我听完劲宇的讲的故事后,我也感到很激动啊,但是,实际上,那天下午5点多钟,我们还在开组会,我正在一边忙着搞公司手头上的一些事情,比如软件工程Benchmark和经验学习的学术工作。开完组会后,我整个人的状态感觉累累的,就想要吃完饭后赶紧回家。

组会后,劲宇在那里一个劲跟我说,我们可以这样搞,那样搞,肯定就能达到Manus的效果。我当时就感觉劲宇就像一只苍蝇在我耳边烦着我,真是太烦啦,好像待会吃完晚饭就回家啦。因为我在第一次看Manus 的演示视频的时候,视频的结尾我没完整看,所以我当时不知道Manus是一个多智能体系统,我从视频中的交互过程去看,我下意识地就以为它是一个单智能体系统,我就非常地震惊,一个单智能体为什么达到这么好的效果,它是怎么规划的,怎么做到的。这也就引出我在开发OpenManus中的一个问题,规划到底要怎么用,给单智能体用,但是给多智能体用。

之后就在晚饭的过程中,聊了一下Manus的技术方案,最终我确定它是在外部有一个规划来协调多智能体。晚饭之后,接下来就是开发 OpenManus了。昨天凌晨4点多,劲宇提到我还在改代码。其实当时,我是在睡觉的,然后发现代码里面似乎有一个BUG,突然就醒过来了,在OpenManus 上面修了一个 BUG。当然项目里面还有很多 BUG,希望开源社区和我们一起贡献这个OpenManus项目。和劲宇不同的是,我根本没想过OpenManus会爆火,我昨天早上9点就起来,10点到公司正常上班。

背景

Manus 是一款通用的AI智能体产品,从用户示例中展示了卓越的用户体验,整体交互给人感觉很不错。但从技术方案上来说,Manus使用了大量的业内共识的核心基础技术。在那天晚饭过程中,我们讨论了Manus的产品形态和技术路线,然后我们整体使用了三个小时左右的时间,开发出来OpenManus 这个开源项目。

除开工程上的卓越工作,让我们分析Manus的算法实现:

Manus 是一个多智能体系统,它首先先使用PlanningTool做规划,形成一个包含多个任务的线性结构的计划,然后顺序执行每一个任务并动态分配给相应的Agent。Agent 在执行每个任务的过程中,以ReAct循环的形式调用工具以完成每一个任务。

  1. 规划能力:Manus 将 PlanningTool 规划工具引入多智能体框架。在这里我想说一下 Planning 规划的重要性,Claude—3.7在SWEBench 上达到了,70%解决率的效果,此前是49%的解决率。一部分提升来源于模型,另一部分就来源于规划。
    而从我们之前的工作,Data Interpreter 也可以证明规划在处理现实问题中的重要性和有效性。我们不仅会在多智能体上加入规划能力,也会尝试在单智能体上加上规划能力。
  2. 工具使用能力:猜测:Manus应该是Claude+一些其它自己post train的模型,体验非常丝滑,在工程上做了很大程度上的优化,这增强了它在不同场景下的工具使用能力。

目的

我觉得他们产品交互做的挺好的,有很多技术也值得学习,至于OpenManus我们这边目前效果还很有限,我们没有单独调效果。

OpenManus 前期目标打算达到原始 Manus 的相同的效果,后续会依靠庞大的开源社区不断优化 Computer Use,Browser Use 和 Planning Use,以及工具调用的能力,从而给带来OpenManus更高的智能涌现~

在这里插入图片描述

洪思睿-分享总结

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

最近工作

SOP和AoT

不足

  • 提升规划能力
  • 引入基准测试,评估效果
  • 适配更多模型(目前只有gpt4o)
  • 容器化部署。在本地实现计算和处理,但是存在潜在风险(比如误删),用户可以在虚拟环境中进行操作。
  • 丰富示例库。
  • 前端交互界面。
  • 增加知识库,用户个性化
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值