Founder Park闭门会议：OpenManus 的技术实现原理

最新推荐文章于 2025-03-27 14:42:04 发布

Sylvan Ding

最新推荐文章于 2025-03-27 14:42:04 发布

阅读量1.8k

点赞数 45

本文链接：https://blog.csdn.net/IYXUAN/article/details/146112635

版权

NLP | Agents | AGI 专栏收录该内容

6 篇文章

订阅专栏

锦秋基金联合Founder Park闭门会议：OpenManus 的技术实现原理

会议简介

继 AI Agent 产品「Manus」刷屏后，昨天，国内DeepWisdom MetaGPT团队和CAMEL AI 团队也分别推出来开源了项目OpenManus和OWL，继续在网络及Github社区引发广泛讨论。
此次特别邀请到了OpenManus团队的核心人员进行分享。

本期的分享你将了解到：

OpenManus 的技术实现原理
Agent技术的发展历史
Multi-Agent技术原理及未来发展趋势

分享嘉宾：

洪思睿，DeepWisdom（MetaGPT），NLP/Agent方向研究员，主要负责算法研发与科研工作。OpenManus 合作者。
梁新兵，OpenManus核心作者，MetaGPT（深度赋智）算法研究员。
向劲宇，在MetaGPT（深度赋智）做AI算法研究员，特工宇宙学术负责人，阿里全球数赛AI赛道第二，AFlow一作，SPO一作，OpenManus 合作者。

开源全球第一多智能体框架

DeepWisdom 自主研发的 MetaGPT，是一个强大的多智能体框架，支持自然语言编程，显著提升软件开发效率。在GitHub上星标超41k（全球多智能体框架第一)，社区人数10K+。DeepWisdom 在 NeurIPS AutoDL / NeurIPS AutoWSL 等多个国际顶级赛事中获得冠军，在多个顶级AI会议和期刊上发表了具有影响力的论文，包括 TPAMI / ICLR / CVPR / ICCV / AAAI 等。最新论文于ICLR 2024获 oral(1.2%),在LLM Agent 领域排名分数第一。

向劲宇-分享总结

在这里插入图片描述

在两个月前的中午，我和梁新兵吃饭时讨论道，如果不考虑Agent中间流程的优化，对于一个ReAct类型的Agent，似乎只要定义好一组Tools和一个System Prompt,那么这个Agent基本就被定义了.因为Tools定义了Agent的Action Space，而System Prompt定义了Agent的行为逻辑。如果按照这个思路，定义一个新的Agent就是往它的身上插卡就可以（插入不同Tools）。

梁新兵按照这个思路，把最初的AgentHub的代码实现了，我们未来也会开源这个完整的框架。

Manus发布的那天晚上，我看到身边的人都很兴奋，大多数的兴奋似乎来自于AI能使用电脑，但似乎这样的功能对业内认识不是特别稀奇的功能，Plan规划的能力在我们24年的开源工作Data Interpreter[1]工作中已经有了相关的实现，通过代码组合Tools,完善了Agent搜索和数据处理的能力，而ComputerUse和BrowserUse等功能也在

OpenDevin（OpenHands）[2]以及AutoGLM[3]等各个工作中均有实现了（还有很多优秀工作，这里未列出的话还请大家包涵）。所以仅从一个demo级别的粗糙实现上来说，给大家用上应该不是很难，配合上新兵的

AgentHub，我们有信心快速完成。于是当天凌晨两点，我给新兵发了消息，我们明天晚上下班搞一个开源。

（另外提一句，Manus本身是很好的工作，他们实现了复杂的规划和可能是自己进行过Post Train的模型，提供了更好的效果和交互，也给我们提供了很多发展思路）

调研和可行性分析：

在这里插入图片描述

所以昨天七点下班，我就开始战斗，加了几个Tools和研究了下到底需要哪些能力，基本用了两个小时把基础版的OpenManus跑通了。反而很多时间是为了给大家更好的前端体验，结果没成功hhh

Manus的出圈一方面在于大家对这种AI的能力非常好奇，另一方面也是他们的故事和产品的展示，做到了极致。所以我最初想到用Streamlit写一个demo版的前端也许大家会感受更好一些，结果Streamlit底层和Browser Use似乎不兼容，我又更换Grdio尝试，但发现它很难做到一个一个代码块往外蹦的新奇感。最后索性直接改log信息，让它尽可能有趣一些。

与此同时，新兵并行地去做一个Planing+ReAct版本的进阶Manus，这个版本与原版Manus的Todo list的功能更加接近了，终于在昨天晚上十一点，我们完成了代码并进行了合并。

之后我开始写推文和录制一些Case，而新兵则继续优化Plan的逻辑，凌晨三点多，我们终于结束了所有的工作

今天早上，十点半醒过来，看到微信三十多个添加好友，我就知道应该爆了，我想继续安心地补个瞌睡，但是怎么都睡不着，拿起手机发现消息已经回不过来了。

写到这里我才想起来，原来从昨天中午午饭后，到现在还没吃过一顿饭，是时候关上手机去让自己休息一下了。

坦诚地说，现在的OpenManus并没有很强的效果，只是demo级的效果，也是Follow很多前辈们的开源工作的基础上做的一点小事情，只不过站在了这次流量的风口上，得到了大家的关注，star涨的很快。另一方面，也是MetaGPT这样的公司平台让我们聚在了一起，为了AI的进步共同努力，让我能有同样志同道合的伙伴一起合作。

我们也会在三月底左右放出一些学术的技术报告，以及开源涉及的核心部分代码内容。包括最近我们在做一个Agent Survey，调研了目前Agent能做什么，不能做什么，未来我们能做什么，梳理了一遍，也会在近期给大家放出。-> Agent 和人之间的差距是什么？如何弥补这个鸿沟？

回想起一年前，那时我还没本科毕业，学校举办的AI比赛上做了个能自己操控电脑的Agent就把大家都吓了一跳，今天回想起来感觉似曾相识。加入MetaGPT这个团队半年多，也和张佳钇一起做了AFlow拿了ICLR的Oral，最近也做了SPO给大家提供真实场景下高效的提示词优化迭代，这就是MetaGPT这个团队“学术循环”的理念。承霖哥（我的老板hhh）说，他要创造一个伟大的公司，希望我们未来能做到开源永存。

梁新兵-分享总结

前言

首先我先感谢劲宇能叫我一起来搞这个OpenManus 开源项目。我听完劲宇的讲的故事后，我也感到很激动啊，但是，实际上，那天下午5点多钟，我们还在开组会，我正在一边忙着搞公司手头上的一些事情，比如软件工程Benchmark和经验学习的学术工作。开完组会后，我整个人的状态感觉累累的，就想要吃完饭后赶紧回家。

组会后，劲宇在那里一个劲跟我说，我们可以这样搞，那样搞，肯定就能达到Manus的效果。我当时就感觉劲宇就像一只苍蝇在我耳边烦着我，真是太烦啦，好像待会吃完晚饭就回家啦。因为我在第一次看Manus 的演示视频的时候，视频的结尾我没完整看，所以我当时不知道Manus是一个多智能体系统，我从视频中的交互过程去看，我下意识地就以为它是一个单智能体系统，我就非常地震惊，一个单智能体为什么达到这么好的效果，它是怎么规划的，怎么做到的。这也就引出我在开发OpenManus中的一个问题，规划到底要怎么用，给单智能体用，但是给多智能体用。

之后就在晚饭的过程中，聊了一下Manus的技术方案，最终我确定它是在外部有一个规划来协调多智能体。晚饭之后，接下来就是开发 OpenManus了。昨天凌晨4点多，劲宇提到我还在改代码。其实当时，我是在睡觉的，然后发现代码里面似乎有一个BUG，突然就醒过来了，在OpenManus 上面修了一个 BUG。当然项目里面还有很多 BUG，希望开源社区和我们一起贡献这个OpenManus项目。和劲宇不同的是，我根本没想过OpenManus会爆火，我昨天早上9点就起来，10点到公司正常上班。

背景

Manus 是一款通用的AI智能体产品，从用户示例中展示了卓越的用户体验，整体交互给人感觉很不错。但从技术方案上来说，Manus使用了大量的业内共识的核心基础技术。在那天晚饭过程中，我们讨论了Manus的产品形态和技术路线，然后我们整体使用了三个小时左右的时间，开发出来OpenManus 这个开源项目。

除开工程上的卓越工作，让我们分析Manus的算法实现：

Manus 是一个多智能体系统，它首先先使用PlanningTool做规划，形成一个包含多个任务的线性结构的计划，然后顺序执行每一个任务并动态分配给相应的Agent。Agent 在执行每个任务的过程中，以ReAct循环的形式调用工具以完成每一个任务。

规划能力：Manus 将 PlanningTool 规划工具引入多智能体框架。在这里我想说一下 Planning 规划的重要性，Claude—3.7在SWEBench 上达到了，70%解决率的效果，此前是49%的解决率。一部分提升来源于模型，另一部分就来源于规划。
而从我们之前的工作，Data Interpreter 也可以证明规划在处理现实问题中的重要性和有效性。我们不仅会在多智能体上加入规划能力，也会尝试在单智能体上加上规划能力。
工具使用能力：猜测：Manus应该是Claude+一些其它自己post train的模型，体验非常丝滑，在工程上做了很大程度上的优化，这增强了它在不同场景下的工具使用能力。