继DeepSeek和Manus爆火之后,AI Agent 市场迎来了大规模爆发。
而在 AI 大模型的发展中,AI Agent 始终备受关注,更有专家称今年是 “Agent 元年”。对于想要上手 AI 大模型的程序员来说,Agent 是一个非常值得关注的方向。
今天给大家盘点了几款热门的AI Agent 开源项目,一起来看看有没有你感兴趣的吧!
1 、browser-use
browser-use在GitHub 上迅速走红,目前已经斩获了45K+颗星。
它是专门为大语言模型服务的智能浏览器工具,创新的Python工具库,它能让 DeepSeek 像人类一样操作浏览器,实现网页自动化,让 AI Agent 执行各种网页任务,无需复杂的编程知识,准确性达到 89%。
主要功能:
网页浏览与操作: AI代理能像人类用户一样浏览网页和执行操作。
多标签页管理: 支持同时管理多个浏览器标签页,提高任务处理效率。
视觉识别与内容提取: 识别网页视觉元素并提取HTML内容。
操作记录与重复执行: 记录AI在浏览器中执行的操作,并能重复这些操作。
GitHub :https://github.com/browser-use/browser-use
2 、Eko
Eko是Fellou AI推出的生产就绪型JavaScript框架,基于自然语言驱动的方式,帮助开发者轻松创建从简单指令到复杂流程的可靠智能代理。
Eko支持所有平台,包括计算机桌面环境和浏览器环境,提供统一且便捷的操作界面。Eko将自然语言指令转化为复杂的工作流程,具备高度的可干预性,支持开发者在执行过程中随时调整。EkoAPI设计简洁明了,文档齐全,易于上手,适合不同水平的开发者。
技术原理:
自然语言处理(NLP): 用先进的自然语言处理技术理解和解析用户的指令。基于自然语言理解(NLU)模块,将用户的自然语言输入转换为结构化的任务和步骤。
任务分解与调度: Eko内部有任务分解引擎,将复杂的任务分解为多个子任务,按照逻辑顺序进行调度。每个子任务能独立执行,Eko根据任务的依赖关系和优先级进行合理的调度,确保任务的高效执行。
多平台适配: 基于抽象层和适配器模式,实现对不同平台的支持。包括浏览器环境、桌面环境中,Eko基于相应的适配器调用底层的操作系统或浏览器API,执行具体的操作。
GitHub :hhttps://github.com/FellouAI/eko
3 、TEN Agent
TEN Agent是集成Open Al Realtime API和RTC技术的开源实时多模态AI代理框架。
TEN Agent能实现语音文本、图像的多模态交互,具备天气查询、网络搜索、视觉识别、RAG能力,支持高性能的实时通信,具备低延迟的音视频交互能力。TEN Agent支持多语言和跨平台操作,支持开发者基于模块化设计轻松扩展功能,如集成视觉识别和RAG能力。
主要功能:
多模态交互: TEN Agent支持语音、文本和图像的多模态交互,让A代理用更自然的方式与用户沟通。
实时通信: 内置RTC(实时通信)能力,支持TEN Agent进行实时的语音和视频交互,无需额外配置。
模块化设计: TEN Agent用模块化设计,让开发者能像插件一样轻松添加新功能。
调试简便: 提供从语音识别(STT)到文本处理(LLM)再到语音合成(TTS)的一站式服务,简化调试过程。
技术集成: 集 成OpenAl的实时API,增强AI代理的能力。
GitHub :https://github.com/TEN-framework/TEN-Agent
4、Magma
微软最近在官网上开源了名为“Magma”的多模态AI Agent基础模型。Magma能够跨越数字和物理世界,处理图像、视频和文本等多种数据类型,并具备心理预测功能,能够更准确地理解人物或物体的意图。
这款AI的应用场景非常广泛,不仅可以帮助用户进行日常操作如自动下单和查询天气,还能控制实体机器人并提供实时帮助。Magma的推出标志着智能助手和机器人技术的重大进步,特别适合用于AI驱动的助手或机器人,提升其学习能力和实用性。
Magma使用了视觉与大语言模型的混合架构,是其实现多模态能力的关键所在。视觉模块使用了ConvNeXt,能够将输入的图像和视频数据编码为一系列离散的tokens。
用户可以用 Magma 来自动下电商订单、查询天气;也可以自动操作实体机器人,或者在下真实象棋时获得帮助。
GitHub :https://github.com/microsoft/Magma
5 、Nanobrowser
Nanobrowser是开源的Chrome扩展工具,专注于AI驱动的网页自动化。
基于多智能体系统实现复杂的网页任务,如信息提取、自动化操作等。用户用自己的LLMAPI密钥,灵活选择不同的模型为不同智能体提供支持。
Nanobrowser完全免费,作为OpenAlOperator的开源替代方案,支持在本地浏览器运行,注重隐私保护,不涉及云服务。Nanobrowser让AI在浏览器中变得更加智能高效。
GitHub :https://github.com/nanobrowser/nanobrowser
6 、AI-Researcher
AI-Researcher是香港大学数据科学实验室推出的开源自动化科学研究工具,基于大型语言模型(LLM)代理实现从研究想法到论文发表的全流程自动化。
AI-Researcher支持用户在两种模式下操作:一是提供详细的研究想法描述,系统据此生成实现策略;
二是提供参考文献,系统自主生成创新想法实施。平台集成文献综述、想法生成、算法设计与验证、结果分析和论文撰写等核心功能,支持多领域研究,基于开源的基准测试套件评估研究质量。
GitHub :https://github.com/HKUDS/AI-Researcher
7 、AppAgentX
AppAgentX是西湖大学推出的新型自我进化式GUI代理框架,基于从执行历史中抽象出高级动作提升代理在智能手机交互中的效率和智能性。
AppAgentX结合记忆机制和进化机制,记录任务执行过程,识别重复操作序列,替换为更高效的高级动作,减少对逐级推理的依赖。AppAgentX基于链式知识框架实现行为的持续优化,增强适应性和效率。
主要功能:
自动归纳高效操作模式: 检测任务执行中的重复性操作,自动总结为高级别的”一键”操作,简化操作流程。
减少重复计算,提升执行效率:基于记忆和复用执行策略,避免重复推理,让任务执行更高效。
基于视觉的通用操作能力: 依赖屏幕视觉信息进行操作,无需后端API支持,在不同软件和设备上通用,实现“即插即用”。
支持复杂任务和跨应用操作: 像人类一样操作各种应用程序,支持复杂的跨应用任务,例如从网页爬取信息后填入Excel,或在多个软件之间联动操作。
GitHub :https://github.com/Westlake-AGI-Lab/AppAgentX
8 、LangManus
LangManus 是一个社区驱动的 AI 自动化框架,它建立在开源社区的出色工作之上。我们的目标是将语言模型与用于 Web 搜索、爬网和 Python 代码执行等任务的专用工具相结合,同时回馈使之成为可能的社区。
例如让它计算 DeepSeek R1 对 HuggingFace 的影响指数。该指数可以通过考虑关注者、下载量和点赞等因素的加权和来设计。
GitHub :https://github.com/langmanus/langmanus
9、 autoMate
autoMate 是一款基于 OmniParser 构建的革命性 AI + RPA 自动化工具,可将 AI 转变为您的“数字员工”。
它可以:
自动作您的计算机界面并完成复杂的工作流程;
智能理解屏幕内容,模拟人类视觉和作;
根据任务要求做出自主决策并采取行动;
支持本地部署,保护您的数据安全和隐私;
与具有复杂规则设置的传统 RPA 工具不同,autoMate 利用大型语言模型完成复杂的自动化流程,只需自然语言任务描述即可完成。告别重复性工作,专注于真正创造价值的事情!
功能特点:
-
无代码自动化 - 使用自然语言描述任务,无需编程知识
-
全界面控制 - 支持在任何可视化界面上进行作,不限于特定软件
-
简化安装 - 与正式版相比,简化的安装过程,支持中文环境,一键部署
-
本地运营 - 保护数据安全,无隐私隐患
-
多模型支持 - 兼容主流大型语言模型
-
持续成长 - 在使用过程中学习并适应您的工作习惯和需求
GitHub :https://github.com/yuruotong1/autoMate
10 、OpenManus
OpenManus是由MetaGPT社区的成员在短短 3 小时内开发完成的开源版Manus,与 Manus 在云端运行不同,OpenManus 直接在用户本地电脑上运行,让用户能够亲眼目睹 AI 代理如何操控自己的电脑完成各种任务。
相比需要邀请码的 Manus,OpenManus 无需任何准入门槛,用户只需克隆代码、配置 LLM API 即可快速上手。项目基于 Python 开发,结构简单明了,支持通过终端输入任务来驱动智能体执行操作。
OpenManus最令人震撼的特性之一是即时反馈机制。当系统在处理任务时,你能看到:
• 任务执行进度的实时更新
• 详细的思考过程日志
• 文件生成的即时通知
这就意味着你可以看到系统是如何思考、规划和执行每一个任务的,这不仅提供了前所未有的可控性,也为开发者提供了宝贵的学习机会。
GitHub :https://github.com/mannaandpoem/OpenManus
11、 OWL
Manus还在闭门造车,而OWL已经和全球开发者一起开源狂飙了!
OWL在GAIA Benchmark 上性能达到 57.7%,超越了 Huggingface 提出的Open Deep Research 55.15% 的表现,成为开源界 GAIA 性能天花板。
从OWL和Manus的对比中可以看出,OWL直接将开源和灵活度拉满了!
而CAMEL AI为了让OWL进化成真正的全自动多Agent 打工神器,还对Manus的技术路线做了深度复刻计划,并拆分为启动Ubuntu容器、知识召回、连接数据源、把数据挂载到Ubuntu、自动生成**todo.md、**Ubuntu工具链+外接工具组合拳,执行全流程任务这六个步骤。
该项目可以说是把技术框架、工作流程、核心能力全都公开共享了。
GitHub :https://github.com/camel-ai/owl
12、 OmniParser
微软发布其基于纯视觉的 GUI 代理的屏幕解析工具 OmniParser 的更新,V2版本, OmniParser 旨在使任何大语言模型(LLM)能够作为 计算机使用代理,进行图形用户界面(GUI)自动化。
也就是帮助计算机理解和自动执行图形界面操作的工具,它可以让大型语言模型(如 GPT)识别屏幕上的按钮、图标等可交互元素,从而实现自动化任务。
OmniParser V2 比之前的版本更加精准、快速,尤其在小图标和高分辨率屏幕的识别上表现更好。V2 在速度和功能上相较于 V1 提升了60%,并支持多种操作系统和应用程序图标识别。
OmniParser V2 的目标是将这些强大的语言模型与计算机操作结合起来。通过将 LLM 与 OmniParser 结合,系统可以自动化许多计算机使用任务,像是通过语言指令来控制计算机界面。
这样,任何能够运行的 LLM 都能变成一个“计算机使用代理”,能够执行用户的指令,如:
- 点击、输入、拖拽等操作。
- 执行一些基于视觉信息的任务(比如读取图标、按钮等)。
简单来说,OmniParser V2 就是让 AI 不仅能理解语言,还能通过理解屏幕上的内容,像人一样去操作电脑,完成任务。
GitHub :https://github.com/microsoft/OmniParser/tree/master
AI Agent 是连接AI技术与实际应用的重要桥梁,已成为人工智能发展的重要趋势。它能够帮助我们真正释放大模型的潜力,实现AI的广泛落地。未来,随着技术的进步,我们有理由相信 AI Agent 的能力边界会不断扩展,也会有更多更好用 AI Agent 产品。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。