2025年“AI Agent 之年”正逐渐走向现实。
3月初 Manus 的出现,真正让用户感受到了Agent产品与对话类大模型的本质区别:用户看到 AI 能够自主操作电脑、使用浏览器、编写代码。Manus 基本定义了 Agent 类产品的基本功能和产品形态。
然而由于早期服务器资源的限制,Manus采用的邀请码注册形式,没有快速积攒很好的用户口碑,最终没能像DeepSeek-R1那样将 AI Agent 的概念植入用户的日常生活。
但所幸字节跳动没有让用户等待太久。4 月 18 日,字节旗下首款 toC Agent 应用“扣子空间”正式上线内测。
1
扣子空间实测:不俗的性能,完美的交付能力
字节对于扣子空间的定义,是精通各项技能的“通用实习生”与各行业的“领域专家”,具备无限拓展能力的 AI Agent。
扣子开发平台(Coze)是字节在24年1月上线的低代码AI开发平台,由字节AI Seed 部门的 Stone 团队开发负责。扣子面向个人和企业用户,具有零代码开发、开放生态、任务自治等核心特点,致力于让所有人都能快速、低门槛地搭建专属于自己的智能体。
此次发布的扣子空间,在架构上属于扣子平台的产品,因此从概念上来看,它最主要的方向仍然是聚焦代码开发环节。然而扣子空间一经发布,却依靠强大的“通用性”迅速征服了大批消费级用户,引起了广泛的讨论与关注。
产品到底怎么样?我们在第一时间拿到邀请码,并测试了多个案例后得到结论:不俗的性能,完美的交付能力,足以应付中等难度问题。
当前扣子空间共有两种开发模式:探索模式、规划模式。
它们的主要区别在于是否支持用户对AI生成的思维路径进行自定义的修改。规划模式就像现实中的一位实习生,向导师(我们)咨询自己的工作大纲是否符合要求。探索模式更加便捷,而规划模式保证了交付结果更加符合预期。
学习AI大模型是一项系统工程,需要时间和持续的努力。但随着技术的发展和在线资源的丰富,零基础的小白也有很好的机会逐步学习和掌握。【点击蓝字获取】
【2025最新】AI大模型全套学习籽料(可白嫖):LLM面试题+AI大模型学习路线+大模型PDF书籍+640套AI大模型报告等等,从入门到进阶再到精通,超全面存下吧!
参考Manus的官方案例,我们首先要求扣子做一个详细的旅行规划,并用网页形式呈现的功能。
扣子交付的结果可视化做的很好,运行时间大概在5分钟以内。在结果中扣子主动调用了高德地图插件提供地图支持,每日的行程安排大致合理。
但是在仔细阅读结果时我们却发现,扣子生成的攻略颗粒度很粗,很多内容概括得比较宽泛。这样的攻略显然距离完全解放用户双手还有些距离。
于是我们进一步尝试,在此基础上进一步要求扣子提供更加详细的行程,列举出各环节的具体价位,并且要求推荐一些当地小众高分美食餐馆,具体到店名,于是我们得到了下面的结果。
https://space.coze.cn/task/7495938611180388390
尽管图像部分由于网络原因无法显示,但明显细化后的攻略价值大幅提高,已经可以作为旅行参考了。
为了检测扣子在推荐餐馆上是否存在幻觉,我们在第三方网站上手动检索了这些餐馆的详细信息。最终验证结果证明了扣子完全抓取到了真实准确的餐馆信息,没有出现任何错误,在交通方式、住宿推荐方面也是一样。
第二个任务,我们让扣子开发一个俄罗斯方块的HTML小游戏。对于这个任务,扣子一次开发即成功,我们在测试过程中几乎没有BUG。并且它还在我们没有要求的前提下,额外增加了计分系统以及暂停与重玩的功能。
https://space.coze.cn/s/2ZTIdKMimCE/
为了给扣子增加难度,我们要求他开发一款愤怒的小鸟的游戏。
相比于规则简单的俄罗斯方块,愤怒的小鸟系统由于涉及物理碰撞等环节,系统更加复杂,扣子给出的结果存在相当多的bug。在尝试多轮对话修复后,我们发现扣子会出现修复一个问题,又把之前的好的功能做坏了的情况。
但尽管如此,每一次扣子还是搭出了一个完整的界面交付给了用户。
https://space.coze.cn/s/bWiS5pap9co/
第三个案例,我们要求扣子生成一个动态的曲线图,反映在2000年前买了1000美元的英伟达股票后的持仓市值变化曲线图。第一次它似乎没有理解我的意思,曲线是画出来了但是没有动态的效果,只能播放数字变动的动画。
于是我们对我们的需求进行了详细的描述,细化到它的功能每一步应该如何实现,最终扣子成功实现了我们的需求。
https://space.coze.cn/s/YJ9vbr_ZY4U/
最后一个任务,我们要求扣子打开4399网站,选择一个小游戏并游玩,考察它虚拟机GUI(用户图形界面)交互的能力。
从结果来看,扣子能成功在虚拟机中打开网站并打开游戏。但由于内部做了限制,扣子无法自主游玩小游戏。
从以上的多轮案例测试中我们发现,扣子空间背后的大模型性能相当强大,具备GUI的交互能力能够操作虚拟机,具有很高的开发上限。
与此同时,我们注意到扣子的开发上限取决于用户提需求的能力。如何提好问题、细化需求的描述,成为用好AI Agent很重要的前提。这就引申出:如何降低用户提出好问题的难度,很可能将成为角逐Agent产品能力高低的胜负手,这需要考验的就是厂商产品工程化的能力。
2
复盘字节的Agent之路:DevAgent & Agent-TARS
根据晚点的报道,在智能体应用 Manus 出圈前后,字节跳动内部已至少有 5 个团队在开发不同Agent产品,其中有些是内部专用的工具。而此次发布的扣子空间产品,消息报道字节团队的立项时间是在1月份。
尽管字节始终对外保持低调,但根据产业跟踪,在扣子空间问世之前,字节至少在3月份上线了2款Agent类的产品。其中最早被曝光的是DevAgent。
DevAgent 的定位是供字节内容员工使用的通用 AI 智能体,因此迄今为止并没有公开关于DevAgent的测试案例。根据仅有的一个网页截图,从精选用例来看,DevAgent的功能与 Manus 十分类似,但 DevAgent 主要针对字节内网知识库信息和多种内部工具实现调研、开发、数据分析等任务,具备生成html、js代码实现可视化的功能。
DevAgent曝光后不久,字节Seed团队在3月18日官方对外发布了开源Agent产品TARS
TARS 的名字很可能取材于诺兰的电影《星际穿越》中帮助主角控制飞船的AI机器人TARS,因为Agent TARS的logo与电影中的TARS机器人十分相似。
与此同时,TARS的名字的另一个含义是 Task Automation and Reasoning System(用户界面-任务自动化和推理系统)的首字母缩写,表明了它的产品定位。
TARS 与扣子空间、 Manus 的用户界面极其类似,具有类似的功能。左侧是用户与大模型的对话窗口,屏幕右侧则是TARS执行过程中展示的操作界面,用户可以清楚的看到 TARS 在执行任务时在虚拟机上的交互过程。
和Anthropic Computer、Manus、智谱AutoGLM 一样,TARS也能够操纵电脑、使用浏览器和搜索引擎,在虚拟机上模拟真人与可视化界面交互。
TARS有两大技术亮点:首次支持MCP协议;可以与用户图像界面交互。
**Agent TARS 视觉能力背后的技术支持,来自字节自研的UI-TARS大模型。**实际上 UI-TARS 大模型早在25年1月就发布了。UI-TARS 是一个原生 GUI(用户图形界面) 智能体,它能够识别并理解GUI中的各种信息,还可以理解用户的交互行为的含义,例如用户点击加入购物车、点赞评论、返回主页等操作的含义。
我们推测扣子空间浏览器调用,很可能应用了 UI-TARS 模型的可视化能力,以支持在虚拟机中操作界面、完成指令工作。并且MCP的技术尝试,很可能也是在TARS的基础上借鉴了相关的经验。
4月17日,豆包Seed团队发布并开源了UI-TARS的最新版本 —— UI-TARS-1.5,在 7 个典型的 GUI 图形用户界面评测基准中取得 SOTA(最先进的技术)表现。目前Seed表述正在持续推进UI-TARS-2.0版本,以求实现在复杂任务中接近人类的性能表现。
3
Agent+工具平台化发展:大厂筑基础,生态繁荣
扣子空间另一个值得关注的设计点,就是字节赋予了它扩展模块的功能。
目前扣子支持包含高德地图、MySQL、Github在内的多种扩展插件的调用,用户可以根据需求随意添加。扩展中还包含了飞书云文档、多维表格等字节自己生态的产品,支持将扣子空间抓取用户个人飞书私域空间内的数据文档作为参考,并且将输出的结果返回至用户的云盘中,以实现AIGC内容在飞书生态内的快速流转。
扣子空间、Agent TARS 之所以能够具备调用工具的能力,主要是因为字节早就在第一时间为他们集成了模型上下文协议,即MCP。
MCP的概念在当前是十分火爆。目前各大公众号对于MCP的科普内容很多,我们也在这里简单对其进行介绍。
打个比方,MCP 协议类似互联网 HTTP 协议。我们在地址栏输入网址敲下回车,实际上就是从客户端向服务器发送一条 HTTP 格式的请求,例如输入 Baidu.com 就是请求访问百度首页。
百度服务器接收到我们的请求后,会根据请求的HTTP信息进行相应的处理。处理完后会向客户端回复一个 HTTP 格式的响应,例如向客户发送实时的首页HTML页面。客户端在收到响应后浏览器会将收到的内容进行渲染并展示给客户。这样我们就能够在浏览器上看到了百度的页面。
**HTTP作为一个协议,它最大的特点就是通用性。**它不仅仅支持HTML也就是网页资源,也支持CSS、表格、脚本、图片等多种资源。得益于它的广泛的应用场景、兼容性和跨平台支持,几乎所有的服务提供商都参与到了HTTP的协议中来。这种通用最后形成了互联网资源的高效传播,促成了互联网产业的繁荣生态。
MCP 就是“AI时代的HTTP协议”。
就像通过浏览器访问网页获取信息,而大模型也需要访问不同的数据库来回答用户的请求。在MCP之前,不同的数据库的接口、调用规则都是不统一的,这就给大模型访问数据库造成了很大的困难。
为解决这个问题,Anthropic在去年11月提出了MCP的概念。它呼吁各类专业的数据库服务商,例如Azure、高德地图、Github等,大家都遵循统一的规范来设置接口,来为大模型提供便捷、通畅的数据服务。
如果还是觉得迷惑,我们只需理解一个简单的概念:MCP的出现降低了大模型****调用不同工具、数据等资源的门槛。MCP的普及代表一种数据、工具的开源共享。
对于一个研究人员来说,专业能力再强,离开了电脑、实验仪器是无法交付出好的成果来的。
AI Agent也一样,未来 AI Agent 产品之间的竞争,本质上拼的能力只有两个:一个是大模型性能的高低,一个是工具是否完善齐全。
当前,大模型性能显然不再是限制AI产品的唯一上限。因为随着DeepSeekR1、Qwen等国际领先的大模型掀起的开源狂潮,几乎所有公司都能零门槛的接入顶尖大模型。因此,工具反而成为在Agent应用竞争中,是天平更加重要的一方。
“完善工具”的概念十分广泛,其中既包括垂类供应商提供服务的能力,同时也包括 MCP Server 数据库资源的时效性、准确性。传统互联网时代的二十多年的经验,历史上过去分分合合的商业竞争,造成了当前垂类数据分离的现状:抖音每天产生大量的短视频数据;本地生活衣食住行的信息聚集在美团、大众点评;地图信息在百度地图、高德地图中;雪球主打财经类专业知识。
而在AI时代,互联网大厂当前已经形成了明确的共识,即依靠MCP这一个统一的标准,打通数据之间的壁垒,依托大厂的流量属性聚集大量开发者,催生出更加落地的 Agent的产品形态,将AI能力从简单的聊天框对话转化到实际的生产力环节中来。
从行业角度来看,目前除字节外,阿里巴巴近期也在大量产品线中尝试接入了MCP。如阿里开发平台百炼上线了全周期 MCP 托管服务、通义千问产品灰度上线MCP模块、蚂蚁百宝箱推出“MCP专区”上线支付宝MCP服务。
4
总结
Manus当时最大的价值,就是以近乎粗暴的方式向大众普及了 Agent 的概念,也为后续同类 Agent 产品的工程化解决方案,提供了一种新的可能性。
扣子空间产品的发布,基本上印证了我们此前的这一判断。
扣子空间作为字节公开的第一款2C AI,真正让用户看到AI思考、执行、操作的全过程,完成了用户市场的教育,同时也强化了Agent产品形态的核心定义:能够调用工具,完成复杂任务。
扣子空间当前只是初级的测试版本,并且字节跳动也绝对不会是唯一下场做toC Agent产品的互联网巨头。据公开消息报道,目前大部分互联网大厂都在推动 Agent 产品的研发,Monica当前也正在和通义千问合作推动中文版Manus的开发。
相信在不久的将来,我们很快就能看到更多 AI Agent 产品的问世,见证AI Agent真正改变我们的生活。
学习AI大模型是一项系统工程,需要时间和持续的努力。但随着技术的发展和在线资源的丰富,零基础的小白也有很好的机会逐步学习和掌握。【点击蓝字获取】
【2025最新】AI大模型全套学习籽料(可白嫖):LLM面试题+AI大模型学习路线+大模型PDF书籍+640套AI大模型报告等等,从入门到进阶再到精通,超全面存下吧!