引言
Manus是由中国团队Monica.im于2025年3月5日发布的全球首款通用型AI Agent(智能体)产品,在权威的GAIA基准测试中性能超越OpenAI同类产品。产品定位Manus定位于"手脑并用"(拉丁语Mens et Manus),采用多代理架 构模拟人类工作流(Plan-Do-Check-Act),成本仅为同类产品的十分之一。 用户只需输入简单指令,即可获得接近实用状态的报告或文档。
本文重点介绍Manus AI的核心功能和技术原理!
目录
一、Manus AI的定位
Manus AI定位为通用AI智能体,其名称源自MIT校训“Mens et Manus”(心灵与双手)中的 “Manus”(双手),强调通过“动手实践”解决实际问题。在技术架构上,Manus采用云端虚拟环境,让AI在独立的“电脑”中操作,避免与用户本地电脑争夺控制权。Manus AI智能体,旨在将想法转化为行动,自主执行复杂任务。
功能和能力包括:
-
旅行规划:创建个性化旅行手册,如日本4月行程。
-
金融分析:分析特斯拉股票,设计可视化仪表板。
-
教育支持:为中学教师创建关于动量定理的视频演示。
-
保险比较:生成清晰比较表并推荐最佳决策。
-
B2B采购:跨网络深入研究,找到合适供应商。
近期Manus与阿里合作,正在开发Manus中文版。官网链接:https://manus.im/
二、核心功能与特点
- 认知控制中枢:智能体控制中枢融合神经符号系统(Neuro-symbolic AI),将LLM的语义理解与知识图谱的逻辑推理相结合, 在医疗诊断等专业领域的决策准确率可达89.7%,较纯LLM方案提升34个百分点。
- 多模态感知系统:感知系统已突破传统文本交互边界,视觉模块采用ViT-22B模型实现每秒60帧的实时场景解析,听觉模块集成 WaveNet变体实现98.2%的语音指令识别率13。更革命性的突破在于跨模态对齐技术,通过对比学习算法建立文本-图像-声音的联合嵌入空间,使得智能体在未知环境中的对象识别准确率提升。
- 任务规划与执行机制:智能体的规划系统采用分层强化学习框架(HRL),将复杂任务分解为可执行的子目标序列。通过蒙特卡洛树搜索(MCTS)与神经规划器结合,Manus在GAIA基准测试中达到91.4%的任务完成率,远超OpenAI同类产品23个百分点。其执行系统创新性地采用沙盒虚拟机架构,支持Python脚本自动生成与调试,在数据分析类任 务中实现完全自动化处理。
2.1、自主操作能力
Manus AI能够模拟人类使用电脑的方式,执行各种操作任务, 就像一位虚拟助手在云端计算机上代替您工作。具体表现:
- 网页浏览操作:能够打开Chrome浏览器,在地址栏输入URL,点击导航栏,使用前进后退按钮;
- 内容交互:滚动页面,点击链接,填写表单,上传文件,拖放元素;
- 应用程序控制:使用快捷键控制视频播放(如使用空 格键暂停/播放YouTube视频);
- 多标签管理:同时打开多个标签页并在其间切换,保 持多线程工作流;
例: 当用户要求Manus比较不同平台上小米AI眼镜的价格时,它会像真人一样依次打开各电商平台,在搜索框输入“小米AI眼镜”,滚动浏览搜索结果,点击相关产品链接,记录价格信息,并在遇到验证码时提示用户协助。整个过程就像远程观看一位助手在电脑上操作一样直观。
2.2、任务规划与执行
Manus AI擅长将复杂任务系统化分解并有序执行,确保高效完成用户需求。具体表现:
- 任务分析与拆解:自动将大型任务拆分成逻辑子任务
- 步骤优先级安排:确定最佳执行顺序,提高效率
- 适应性调整:根据执行过程中的发现动态调整计划
- 进度跟踪与报告:实时更新任务完成状态
例: 当用户请求Manus进行特斯拉股票分析时,它会自动拆解任务为:
(1)收集特斯拉基本财务数据;
(2) 分析行业竞争格局;
(3)评估市场趋势;
(4)研究政 策影响;
(5)查找分析师观点;
(6)总结投资建议。
它会有序执行这些步骤,在Google Finance查询基本数据,访问特斯拉官网获取财报,浏览行业新闻分析竞争对手,最后将所有信息整合形成完整分析。