扣子空间：字节首款Agent，比豆包更像助理

AI大模型入门学习

于 2025-04-24 11:58:45 发布

阅读量991

点赞数 26

文章标签：人工智能 ai

本文链接：https://blog.csdn.net/2401_82631657/article/details/147475239

版权

2025年“AI Agent 之年”正逐渐走向现实。

3月初 Manus 的出现，真正让用户感受到了Agent产品与对话类大模型的本质区别：用户看到 AI 能够自主操作电脑、使用浏览器、编写代码。Manus 基本定义了 Agent 类产品的基本功能和产品形态。

然而由于早期服务器资源的限制，Manus采用的邀请码注册形式，没有快速积攒很好的用户口碑，最终没能像DeepSeek-R1那样将 AI Agent 的概念植入用户的日常生活。

但所幸字节跳动没有让用户等待太久。4 月 18 日，字节旗下首款 toC Agent 应用“扣子空间”正式上线内测。

扣子空间实测：不俗的性能，完美的交付能力

字节对于扣子空间的定义，是精通各项技能的“通用实习生”与各行业的“领域专家”，具备无限拓展能力的 AI Agent。

扣子开发平台（Coze）是字节在24年1月上线的低代码AI开发平台，由字节AI Seed 部门的 Stone 团队开发负责。扣子面向个人和企业用户，具有零代码开发、开放生态、任务自治等核心特点，致力于让所有人都能快速、低门槛地搭建专属于自己的智能体。

此次发布的扣子空间，在架构上属于扣子平台的产品，因此从概念上来看，它最主要的方向仍然是聚焦代码开发环节。然而扣子空间一经发布，却依靠强大的“通用性”迅速征服了大批消费级用户，引起了广泛的讨论与关注。

产品到底怎么样？我们在第一时间拿到邀请码，并测试了多个案例后得到结论：不俗的性能，完美的交付能力，足以应付中等难度问题。

当前扣子空间共有两种开发模式：探索模式、规划模式。

它们的主要区别在于是否支持用户对AI生成的思维路径进行自定义的修改。规划模式就像现实中的一位实习生，向导师（我们）咨询自己的工作大纲是否符合要求。探索模式更加便捷，而规划模式保证了交付结果更加符合预期。

学习AI大模型是一项系统工程，需要时间和持续的努力。但随着技术的发展和在线资源的丰富，零基础的小白也有很好的机会逐步学习和掌握。【点击蓝字获取】

参考Manus的官方案例，我们首先要求扣子做一个详细的旅行规划，并用网页形式呈现的功能。

扣子交付的结果可视化做的很好，运行时间大概在5分钟以内。在结果中扣子主动调用了高德地图插件提供地图支持，每日的行程安排大致合理。

但是在仔细阅读结果时我们却发现，扣子生成的攻略颗粒度很粗，很多内容概括得比较宽泛。这样的攻略显然距离完全解放用户双手还有些距离。

于是我们进一步尝试，在此基础上进一步要求扣子提供更加详细的行程，列举出各环节的具体价位，并且要求推荐一些当地小众高分美食餐馆，具体到店名，于是我们得到了下面的结果。

https://space.coze.cn/task/7495938611180388390

尽管图像部分由于网络原因无法显示，但明显细化后的攻略价值大幅提高，已经可以作为旅行参考了。

为了检测扣子在推荐餐馆上是否存在幻觉，我们在第三方网站上手动检索了这些餐馆的详细信息。最终验证结果证明了扣子完全抓取到了真实准确的餐馆信息，没有出现任何错误，在交通方式、住宿推荐方面也是一样。

第二个任务，我们让扣子开发一个俄罗斯方块的HTML小游戏。对于这个任务，扣子一次开发即成功，我们在测试过程中几乎没有BUG。并且它还在我们没有要求的前提下，额外增加了计分系统以及暂停与重玩的功能。

https://space.coze.cn/s/2ZTIdKMimCE/

为了给扣子增加难度，我们要求他开发一款愤怒的小鸟的游戏。

相比于规则简单的俄罗斯方块，愤怒的小鸟系统由于涉及物理碰撞等环节，系统更加复杂，扣子给出的结果存在相当多的bug。在尝试多轮对话修复后，我们发现扣子会出现修复一个问题，又把之前的好的功能做坏了的情况。

但尽管如此，每一次扣子还是搭出了一个完整的界面交付给了用户。

https://space.coze.cn/s/bWiS5pap9co/

第三个案例，我们要求扣子生成一个动态的曲线图，反映在2000年前买了1000美元的英伟达股票后的持仓市值变化曲线图。第一次它似乎没有理解我的意思，曲线是画出来了但是没有动态的效果，只能播放数字变动的动画。

于是我们对我们的需求进行了详细的描述，细化到它的功能每一步应该如何实现，最终扣子成功实现了我们的需求。

https://space.coze.cn/s/YJ9vbr_ZY4U/

最后一个任务，我们要求扣子打开4399网站，选择一个小游戏并游玩，考察它虚拟机GUI（用户图形界面）交互的能力。

从结果来看，扣子能成功在虚拟机中打开网站并打开游戏。但由于内部做了限制，扣子无法自主游玩小游戏。

从以上的多轮案例测试中我们发现，扣子空间背后的大模型性能相当强大，具备GUI的交互能力能够操作虚拟机，具有很高的开发上限。

与此同时，我们注意到扣子的开发上限取决于用户提需求的能力。如何提好问题、细化需求的描述，成为用好AI Agent很重要的前提。这就引申出：如何降低用户提出好问题的难度，很可能将成为角逐Agent产品能力高低的胜负手，这需要考验的就是厂商产品工程化的能力。

复盘字节的Agent之路：DevAgent & Agent-TARS

根据晚点的报道，在智能体应用 Manus 出圈前后，字节跳动内部已至少有 5 个团队在开发不同Agent产品，其中有些是内部专用的工具。而此次发布的扣子空间产品，消息报道字节团队的立项时间是在1月份。

尽管字节始终对外保持低调，但根据产业跟踪，在扣子空间问世之前，字节至少在3月份上线了2款Agent类的产品。其中最早被曝光的是DevAgent。

DevAgent 的定位是供字节内容员工使用的通用 AI 智能体，因此迄今为止并没有公开关于DevAgent的测试案例。根据仅有的一个网页截图，从精选用例来看，DevAgent的功能与 Manus 十分类似，但 DevAgent 主要针对字节内网知识库信息和多种内部工具实现调研、开发、数据分析等任务，具备生成html、js代码实现可视化的功能。

DevAgent曝光后不久，字节Seed团队在3月18日官方对外发布了开源Agent产品TARS

TARS 的名字很可能取材于诺兰的电影《星际穿越》中帮助主角控制飞船的AI机器人TARS，因为Agent TARS的logo与电影中的TARS机器人十分相似。

与此同时，TARS的名字的另一个含义是 Task Automation and Reasoning System（用户界面-任务自动化和推理系统）的首字母缩写，表明了它的产品定位。

TARS 与扣子空间、 Manus 的用户界面极其类似，具有类似的功能。左侧是用户与大模型的对话窗口，屏幕右侧则是TARS执行过程中展示的操作界面，用户可以清楚的看到 TARS 在执行任务时在虚拟机上的交互过程。

和Anthropic Computer、Manus、智谱AutoGLM 一样，TARS也能够操纵电脑、使用浏览器和搜索引擎，在虚拟机上模拟真人与可视化界面交互。

TARS有两大技术亮点：首次支持MCP协议；可以与用户图像界面交互。

**Agent TARS 视觉能力背后的技术支持，来自字节自研的UI-TARS大模型。**实际上 UI-TARS 大模型早在25年1月就发布了。UI-TARS 是一个原生 GUI（用户图形界面）智能体，它能够识别并理解GUI中的各种信息，还可以理解用户的交互行为的含义，例如用户点击加入购物车、点赞评论、返回主页等操作的含义。

我们推测扣子空间浏览器调用，很可能应用了 UI-TARS 模型的可视化能力，以支持在虚拟机中操作界面、完成指令工作。并且MCP的技术尝试，很可能也是在TARS的基础上借鉴了相关的经验。

4月17日，豆包Seed团队发布并开源了UI-TARS的最新版本 —— UI-TARS-1.5，在 7 个典型的 GUI 图形用户界面评测基准中取得 SOTA（最先进的技术）表现。目前Seed表述正在持续推进UI-TARS-2.0版本，以求实现在复杂任务中接近人类的性能表现。

Agent+工具平台化发展：大厂筑基础，生态繁荣

扣子空间另一个值得关注的设计点，就是字节赋予了它扩展模块的功能。

目前扣子支持包含高德地图、MySQL、Github在内的多种扩展插件的调用，用户可以根据需求随意添加。扩展中还包含了飞书云文档、多维表格等字节自己生态的产品，支持将扣子空间抓取用户个人飞书私域空间内的数据文档作为参考，并且将输出的结果返回至用户的云盘中，以实现AIGC内容在飞书生态内的快速流转。

扣子空间、Agent TARS 之所以能够具备调用工具的能力，主要是因为字节早就在第一时间为他们集成了模型上下文协议，即MCP。

MCP的概念在当前是十分火爆。目前各大公众号对于MCP的科普内容很多，我们也在这里简单对其进行介绍。

打个比方，MCP 协议类似互联网 HTTP 协议。我们在地址栏输入网址敲下回车，实际上就是从客户端向服务器发送一条 HTTP 格式的请求，例如输入 Baidu.com 就是请求访问百度首页。

百度服务器接收到我们的请求后，会根据请求的HTTP信息进行相应的处理。处理完后会向客户端回复一个 HTTP 格式的响应，例如向客户发送实时的首页HTML页面。客户端在收到响应后浏览器会将收到的内容进行渲染并展示给客户。这样我们就能够在浏览器上看到了百度的页面。

**HTTP作为一个协议，它最大的特点就是通用性。**它不仅仅支持HTML也就是网页资源，也支持CSS、表格、脚本、图片等多种资源。得益于它的广泛的应用场景、兼容性和跨平台支持，几乎所有的服务提供商都参与到了HTTP的协议中来。这种通用最后形成了互联网资源的高效传播，促成了互联网产业的繁荣生态。

MCP 就是“AI时代的HTTP协议”。

就像通过浏览器访问网页获取信息，而大模型也需要访问不同的数据库来回答用户的请求。在MCP之前，不同的数据库的接口、调用规则都是不统一的，这就给大模型访问数据库造成了很大的困难。

为解决这个问题，Anthropic在去年11月提出了MCP的概念。它呼吁各类专业的数据库服务商，例如Azure、高德地图、Github等，大家都遵循统一的规范来设置接口，来为大模型提供便捷、通畅的数据服务。

如果还是觉得迷惑，我们只需理解一个简单的概念：MCP的出现降低了大模型****调用不同工具、数据等资源的门槛。MCP的普及代表一种数据、工具的开源共享。

对于一个研究人员来说，专业能力再强，离开了电脑、实验仪器是无法交付出好的成果来的。

AI Agent也一样，未来 AI Agent 产品之间的竞争，本质上拼的能力只有两个：一个是大模型性能的高低，一个是工具是否完善齐全。

当前，大模型性能显然不再是限制AI产品的唯一上限。因为随着DeepSeekR1、Qwen等国际领先的大模型掀起的开源狂潮，几乎所有公司都能零门槛的接入顶尖大模型。因此，工具反而成为在Agent应用竞争中，是天平更加重要的一方。

“完善工具”的概念十分广泛，其中既包括垂类供应商提供服务的能力，同时也包括 MCP Server 数据库资源的时效性、准确性。传统互联网时代的二十多年的经验，历史上过去分分合合的商业竞争，造成了当前垂类数据分离的现状：抖音每天产生大量的短视频数据；本地生活衣食住行的信息聚集在美团、大众点评；地图信息在百度地图、高德地图中；雪球主打财经类专业知识。

而在AI时代，互联网大厂当前已经形成了明确的共识，即依靠MCP这一个统一的标准，打通数据之间的壁垒，依托大厂的流量属性聚集大量开发者，催生出更加落地的 Agent的产品形态，将AI能力从简单的聊天框对话转化到实际的生产力环节中来。

从行业角度来看，目前除字节外，阿里巴巴近期也在大量产品线中尝试接入了MCP。如阿里开发平台百炼上线了全周期 MCP 托管服务、通义千问产品灰度上线MCP模块、蚂蚁百宝箱推出“MCP专区”上线支付宝MCP服务。