字节版manus，多模态 AI Agent开源！

最新推荐文章于 2025-03-26 20:31:10 发布

AI大模型-王哥

最新推荐文章于 2025-03-26 20:31:10 发布

阅读量1.7k

点赞数 22

文章标签：人工智能大模型 AI 语言模型 Agent 程序员大模型教程

本文链接：https://blog.csdn.net/2401_84204413/article/details/146456870

版权

项目简介

Agent TARS 是一个开源的多模态人工智能代理，它通过视觉解析网页并无缝集成到命令行和文件系统中，利用浏览器操作。字节跳动开源的多模态 AI Agent，最大的特点是能够通过视觉方式理解网页内容，并与命令行和文件系统无缝集成

功能

🌐 高级浏览器操作：通过代理框架执行复杂的任务，如深度研究和操作员功能，实现全面规划和执行。
🛠️ 全面工具支持：与搜索、文件编辑、命令行和模型上下文协议（MCP）工具集成，以处理复杂的工作流程。
增强桌面应用：全新的用户界面，包括浏览器显示、多模态元素、会话管理、模型配置、对话流程可视化以及浏览器/搜索状态跟踪。
🔄 工作流程编排：无缝连接 GUI 代理工具——搜索、浏览、探索链接，并将信息综合成最终输出。
⚙️ 开发者友好框架：简化与 UI-TARS 的集成以及 GUI 代理项目的自定义工作流程创建。

安装

您可以从我们的发布页面下载 Agent TARS 的最新版本。

注意：如果您已安装 Homebrew，可以通过运行以下命令安装 UI-TARS Desktop：

brew install --cask agent-tars

开始使用

你好，欢迎使用 Agent TARS！

本指南将指导您完成设置第一个 Agent TARS 项目的流程。

必要的配置
在开始之前，您需要设置一些必要的配置。

启用 MacOS 中 Agent TARS 的辅助功能权限：

系统设置 -> 隐私和安全 -> 无障碍访问

您可以点击左下角的按钮打开配置页面：

然后您可以设置模型配置和搜索配置。

对于模型配置，您可以设置模型提供者和 API 密钥：

对于 Azure OpenAI，您可以设置更多参数，包括 apiVersion、deploymentName 和 endpoint。

搜索配置中，您可以设置搜索提供者和 API 密钥：

开始您的第一次旅程
现在，你可以开始你的第一次 Agent TARS 之旅了！

您可以在输入框中输入您的问题，然后按 Enter 键发送问题。这里有一个示例：

它正在工作！

我们也支持人机交互，这意味着您可以通过输入框在工作过程中与代理进行交互。如果您想改变当前代理的工作方向，您可以在顶部位置的特殊输入框中输入您的想法，然后按 Enter 键发送您的想法。

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。