AGI之Agent:Agent(一种训练LLM模拟人类在现实世界中各种规则和行为系统)的简介——之实战案例(GPT-3.5/GPT-4/ChatGLM-3/GLM-4/Claude-2)、部署框架(LangChain/LangGraph)、代表性案例(Gato/AutoGPT/ChemCrow/Generative Agents/SuperAGI/GPT-Engineer/AutoGen/GitAgent/Agentscope/Skyvern/OpenBB LLM Agents/Cover Agent/Translation Agent/Vision-Agent/Deaddit/Twitter Personality/AgentK/Agent S/AutoGLM/Swarm/Magentic-One)、分类(单智能体(BabyAGI/AutoGPT/HuggingGPT/GPT-Engineer/Samantha/AppAgent/OS-Copilot)、多智能体(斯坦福虚拟小镇/MetaGPT/AutoGen/ChatDEV/GPTeam/GPT Researcher/TaskWeaver/微软UFO/CrewAI/AgentScope))之详细攻略
导读:今天是24年12月7日凌晨,博主确实已经好久好久没有分享综述性的文章了,主要是博主把所有能空闲的时间,全部忙于近期即将出版的两本书,经历了多次校稿与审稿,实在是耗费了大量的时间,尤其是大语言模型理论与实战的书籍—《语言之舞:跳动的自然语言与大模型实战案例》,删减前的原稿60多万字(约800页,三校三审后估计400页左右),此书耗费时间极其长,参考论文和文献更是不计其数,基本上囊括了博主近几年关于LLMs的理论与实战案例,除了相对完备的理论内容,尤其涉及一些以前博主从未完整分享的预训练、微调、推理和部署的经验技巧和失败心路历程。因早已与某出版社签约,受版权原因,而本文主要是分享并探讨了基于大型语言模型(LLM)的智能体(Agent)技术及其应用,这是博主新书中第八章的第3个小节中的部分内容,本文涵盖了Agent的理论基础,包括其本质、原理、核心技术、优化方法、面临的挑战以及评估标准—此部分文章因书籍版权原因需有偿参考源地址,并对传统Agent和LLM驱动的Agent进行了多维度对比。重点介绍了多种代表性Agent模型和开发框架,例如LangChain、LangGraph、AutoGPT、Generative Agents、ChemCrow、SuperAGI、GPT-Engineer、AutoGen、Gato以及众多其他开源项目,并对这些模型的原理、使用方法和应用案例进行了详细的讲解和实战攻略。 内容还包括基于LangChain框架构建各种Agent的详细教程,例如ToolAgent、XMLAgent、JsonChatAgent、以及结合不同LLM(如GPT-3.5、GPT-4、Claude-2、ChatGLM3、GLM-4、Qwen-2等)和工具(如数据库查询、网页搜索、知识图谱)的应用案例。 此外,文章还涉及多智能体系统,例如斯坦福虚拟小镇和AutoGen,并对Agent的部署框架进行了阐述。
#############20241209更新###############
新增:德勤AI研究院关于AI Agents的报告的解读文章
LLMs之Agent:《Prompting for action—How AI agents are reshaping the future of work, Expanded capabilities, use cases and enterprise impact from Generative AI,激发行动—人工智能代理如何重塑未来工作的面貌—生成型人工智能扩展能力、应用场景及对企业的影响》翻译与解读
#############20241219更新###############新增:博主即将出版的两本新书封面,以及两本书的特色概览
第一本书:侧重机器学习的全流程实战+各种可视化技术;
第二本书:侧重大模型理论与实战+前沿应用技术方案+极其实在的优化策略;
目录
第一本书:侧重机器学习实战,耗时5年,原稿70万字,出稿预估35万字
第二本书:侧重大模型理论与实战,耗时3年,原稿68万字,出稿预估38万字
AGI之Agent:《Generative Agents: Interactive Simulacra of Human Behavior生成代理:人类行为的交互模拟》翻译与解读
AGI之Agent:《A Generalist Agent一个通用型代理—Gato》翻译与解读
AGI之Agent:《Agent AI: Surveying the Horizons of Multimodal Interaction智能体AI:多模态交互视野的考察》翻译与解读
LLMs之Agent:awesome-ai-agents项目的简介(最主流AI自主Agent的全面列表及其详情)、分类、使用方法之详细攻略
Agent的理论部分—简介/本质/原理/核心技术/优化改进/挑战/评估基准/类型/传统Agent与LLM Agent多维度对比等
1、具有Agent能力的大语言模型:参考LangChain的总结—工具调用能力、结构化输出能力
LLMs之GLM-4:GLM-4的简介(全覆盖【对话版即ChatGLM4的+工具调用+多模态文生图】能力→Agent)、安装和使用方法、案例应用之详细攻略
Py之Langchain:Langchain(LLM大型语言模型应用程序框架/将LLMs个体进行flow的能力)的简介、安装、使用方法之详细攻略
LangChain之Agent:LangChain框架中与Agent相关的概念简介、Agent分类(五大维度分类/8种代理)、常用函数、案例应用之详细攻略
LLMs之LangGraph:LangGraph(以图逻辑的方式处理复杂流程任务/带有循环功能的Agent)的简介、安装和使用方法、案例应用之详细攻略
LLM之RAG之LlaMAIndex:llama-index(一块轻快构建索引来查询本地文档的数据框架神器)的简介、安装、使用方法之详细攻略
Agent:awesome-ai-agents项目的简介(最主流AI自主Agent的全面列表及其详情)、分类、使用方法之详细攻略
AGI之Agent:《A Generalist Agent一个通用型代理—Gato》翻译与解读
AGI之Agent:AutoGPT(构建和使用AI代理)的简介、安装和使用方法、案例应用之详细攻略
2023年4月11日,ChemCrow:专注有机合成、药物发现和材料设计等任务,将CoT推理与任务相关的工具相结合=LLM+18个专业工具+LangChain框架,完整性优于GPT-4
AGI之Agent:《ChemCrow: Augmenting large-language models with chemistry tools用化学工具增强大语言模型》翻译与解读
AGI之Agent:《Generative Agents: Interactive Simulacra of Human Behavior生成代理:人类行为的交互模拟》翻译与解读
2023年5月,SuperAGI是一款开源框架,用于构建、管理和运行有用的自主AI Agent
2023年6月,GPT-Engineer:根据提示生成整个代码库,其采用LLM进行任务细分和需求澄清
2023年9月,微软正式开源AutoGen,通过多个代理进行对话以解决任务,从而实现LLM应用的开发。
LLMs之Agent之AutoGen:AutoGen的简介、安装、使用方法之详细攻略
2023年12月,清华大学提出了一个名为GitAgent的代理系统,可以自动从Github中扩充工具来解答用户查询
2024年2月27日,发布Agentscope,是一款更简单地构建基于LLM的多智能体应用。
LLMs之Agent:Agentscope的简介、安装和使用方法、案例应用之详细攻略
2024年3月17日,Skyvern是一个浏览器自动化平台,它利用语言模型(LLM)和计算机视觉来自动化基于浏览器的工作流
Agent之ETA之Skyvern:Skyvern(利用 LLM 和计算机视觉自动化基于浏览器的工作流程)的简介、安装和使用方法、案例应用之详细攻略
LLMs之Agent之Lares:Lares的简介、安装和使用方法、案例应用之详细攻略
2024年5月,OpenBB LLM Agents是结合了大型语言模型(LLM)和OpenBB平台,旨在创建能够自主执行金融研究并使用最新数据回答问题的金融分析师代理
LLMs之openbb-agents:openbb-agents的简介、安装和使用方法、案例应用之详细攻略
2024年5月9日,CodiumAI发布Cover Agent,它旨在通过自动生成合格的测试来提高代码覆盖率
Agent之Cover Agent:Cover Agent(用于提升自动化测试生成和代码覆盖率)的简介、安装和使用方法、案例应用之详细攻略
2024年6月,Andrew Ng发布Translation Agent,这是一种基于反射工作流程的代理翻译
LLMs之translation-agent:translation-agent的简介、安装和使用方法、案例应用之详细攻略
2024年6月6日,Andrew Ng在Snowflake活动上发布vision-agent,利用代理框架生成代码来解决视觉任务
LLMs之Agent之vision-agent:vision-agent的简介、安装和使用方法、案例应用之详细攻略
2024年7月,Deaddit是一个技术演示项目,展示了一个完全由AI生成内容的互联网可能是什么样子,它模拟了一个类似Reddit的网站。
LLM之Agent:Deaddit(一个具有AI用户且类似 Reddit 的网站)的简介、安装和使用方法、案例应用之详细攻略
2024年8月,Twitter Personality是一个基于Wordware AI Agent的网络应用程序,用于分析Twitter账户并创建个性化的性格分析报告
LLMs之Agent:Twitter Personality的简介、安装和使用方法、案例应用之详细攻略
2024年8月,AgentK由多个协同工作的代理组成,这些代理能够根据需要构建新的代理来完成用户的任务。
LLMs之Agent之AgentK:AgentK的简介、安装和使用方法、案例应用之详细攻略
2024年10月10日,Agent S,一个开放的自主代理框架,旨在通过图形用户界面(GUI)与计算机进行自主交互,从而实现对复杂多步骤任务的自动化,最终目标是让计算机像人类一样工作。
LLMs之Agent:《Agent S: An Open Agentic Framework that Uses Computers Like a Human》翻译与解读
2024年10与25日,智谱AI发布AutoGLM,通过图形用户界面(GUI),例如手机和网页,实现自主任务完成代理。
Agent之AutoGLM:AutoGLM(面向GUI的自主基础代理)的简介、安装和使用方法、案例应用之详细攻略
2024年10月,OpenAI发布开源Swarm 。Swarm 是一个探索人体工程学、轻量级多智能体编排的教育框架,由 OpenAI 解决方案团队管理
Agent之Swarm:Swarm的简介、安装和使用方法、案例应用之详细攻略
2024年11月4日,Microsoft团队发布Magentic-One,一个用于解决复杂任务的通用型多智能体系统。
LLMs之Agent:Magentic-One的简介、安装和使用方法、案例应用之详细攻略
LLMs之Agent:从工作流视角来理解如何实现AI Agent的简介、实现策略(PE驱动-CoT/工作流驱动-多角色协作)、案例应用之详细攻略
2025年博主新书—年后即将发布,感谢大家支持!真心感谢!
博主也非常欢迎国内外各大头部AI机构或者AI社区平台前来私信洽谈与合作!
第一本书:侧重机器学习实战,耗时5年,原稿70万字,出稿预估35万字
本书具有以下几个显著特色:
>> 系统性与实战性:本书从数据科学的基础概念入手,逐步深入到各个具体技术和方法,涵盖了从数据采集、处理、可视化、建模到评估的完整流程,并配有大量的代码实例,帮助读者在实际操作中加深理解。每个部分和章节都精心设计,配有详尽的理论讲解和实际操作代码实例,力求帮助读者全面掌握数据科学和机器学习的核心技术。
>> 丰富的可视化技术:针对不同类型的数据,介绍了多种可视化技术和实现方法,帮助读者更好地理解和展示数据。
>> 实用的机器学习流程:全面介绍了机器学习项目的各个阶段,包括初步探索性数据分析、数据清洗、特征工程、模型训练与评估等,为读者提供一套完整的机器学习项目流程指南。
……
第二本书:侧重大模型理论与实战,耗时3年,原稿68万字,出稿预估38万字
本书具有以下几个显著的特色:
>> 理论与实践相结合:本书并非单纯的理论阐述,而是将理论知识与大量的实战案例紧密结合,力求做到知行合一。每一章节都包含了丰富的代码示例和详细的步骤讲解,帮助读者快速上手。
>> 内容全面且系统:本书涵盖了LLMs的方方面面,从发展历史、核心要素、构建流程到模型部署、微调、推理,以及各种高级应用和未来发展方向,力求做到内容全面且系统,帮助读者建立完整的知识体系。
>> 案例丰富且实用:本书提供了多个基于不同主流LLMs(如GPT家族、LLaMA家族、PaLM家族、GLM家族、Qwen系列模型等)的实战案例,涵盖了微调、推理部署、RAG、ETA、Agent等多种应用场景,这些案例均经过作者的精心挑选和验证,具有很强的实用性。
>> 代码规范且易懂:本书所有代码示例均采用规范的编程风格,并配有详细的注释和解释,即使是编程基础薄弱的读者也能轻松理解和运行。
>> 紧跟技术前沿:本书内容紧跟LLMs技术发展前沿,涵盖了最新的模型架构、训练方法、部署工具和应用场景,确保读者学习到最前沿的知识。
……
相关文章及其论文
AGI之Agent:Agent(一种训练LLM模拟人类在现实世界中各种规则和行为系统)的简介、实现案例(LangChain/ChemCrow/Generative Agents/AutoGPT/SuperAGI/GPT-Engineer/AutoGen)、实战应用之详细攻略
AGI之Agent:《Generative Agents: Interactive Simulacra of Human Behavior生成代理:人类行为的交互模拟》翻译与解读
AGI之Agent:《Generative Agents: Interactive Simulacra of Human Behavior生成代理:人类行为的交互模拟》翻译与解读-CSDN博客
AGI之Agent:《A Generalist Agent一个通用型代理—Gato》翻译与解读
AGI之Agent:《A Generalist Agent一个通用型代理—Gato》翻译与解读-CSDN博客
AGI之Agent:《基于LLM驱动的智能体—三大组件(规划+记忆+工具使用)、四大案例(ChemCrow/AutoGPT/GPT-Engineer/Generative Agents)、三大挑战(限的上下文长度/规划困难/自然语言接口的可靠性)》的翻译与解读
AGI之Agent:《Personal LLM Agents: Insights and Survey about the Capability, Efficiency and Security个人LLM智能体:能力、效率与安全的洞察与调查》翻译与解读
AGI之Agent:《Agent AI: Surveying the Horizons of Multimodal Interaction智能体AI:多模态交互视野的考察》翻译与解读
AGI之Agent:《Agent AI: Surveying the Horizons of Multimodal Interaction智能体AI:多模态交互视野的考察》翻译与解读-CSDN博客
LLMs之Agent:awesome-ai-agents项目的简介(最主流AI自主Agent的全面列表及其详情)、分类、使用方法之详细攻略
LLMs之Agent:awesome-ai-agents项目的简介(最主流AI自主Agent的全面列表及其详情)、分类、使用方法之详细攻略-CSDN博客
LLMs之Agent:《Prompting for action—How AI agents are reshaping the future of work, Expanded capabilities, use cases and enterprise impact from Generative AI,激发行动—人工智能代理如何重塑未来工作的面貌—生成型人工智能扩展能力、应用场景及对企业的影响》翻译与解读
Agent的理论部分—简介/本质/原理/核心技术/优化改进/挑战/评估基准/类型/传统Agent与LLM Agent多维度对比等
Agent(一种训练LLM模拟人类在现实世界中各种规则和行为系统)的简介(本质/原理/核心技术/优化改进/挑战/评估基准/类型/传统Agent与LLM Agent多维度对比等)、实战案例、部署框架、代表性案例之详细攻略
Agent的实战案例
1、具有Agent能力的大语言模型:参考LangChain的总结—工具调用能力、结构化输出能力
地址:Chat models | 🦜️🔗 LangChain
V01版本
Model | Invoke | Async invoke | Stream | Async stream | Tool calling | Structured output | Python Package |
---|---|---|---|---|---|---|---|
AzureChatOpenAI | ✅ | ❌ | ❌ | ❌ | ✅ | ✅ | langchain-openai |
BedrockChat | ✅ | ❌ | ✅ | ❌ | ❌ | ❌ | langchain-community |
ChatAnthropic | ✅ | ❌ | ❌ | ❌ | ✅ | ✅ | langchain-anthropic |
ChatAnyscale | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | langchain-community |
ChatBaichuan | ✅ | ❌ | ✅ | ❌ | ❌ | ❌ | langchain-community |
ChatCohere | ✅ | ❌ | ❌ | ❌ | ✅ | ✅ | langchain-cohere |
ChatCoze | ✅ | ❌ | ✅ | ❌ | ❌ | ❌ | langchain-community |
ChatDatabricks | ✅ | ❌ | ✅ | ❌ | ❌ | ❌ | langchain-community |
ChatDeepInfra | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | langchain-community |
ChatEverlyAI | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | langchain-community |
ChatFireworks | ✅ | ❌ | ❌ | ❌ | ✅ | ✅ | langchain-fireworks |
ChatFriendli | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | langchain-community |
ChatGooglePalm | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | langchain-community |
ChatGroq | ✅ | ❌ | ❌ | ❌ | ✅ | ✅ | langchain-groq |
ChatHuggingFace | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | langchain-community |
ChatHunyuan | ✅ | ❌ | ✅ | ❌ | ❌ | ❌ | langchain-community |
ChatJavelinAIGateway | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | langchain-community |
ChatKinetica | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ | langchain-community |
ChatKonko | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ | langchain-community |
ChatLiteLLM | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | langchain-community |
ChatLiteLLMRouter | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | langchain-community |
ChatMLX | ✅ | ✅ | ✅ | ❌ | ❌ | ❌ | langchain-community |
ChatMLflowAIGateway | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ | langchain-community |
ChatMaritalk | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | langchain-community |
ChatMistralAI | ✅ | ❌ | ❌ | ❌ | ✅ | ✅ | langchain-mistralai |
ChatMlflow | ✅ | ❌ | ✅ | ❌ | ❌ | ❌ | langchain-community |
ChatOctoAI | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | langchain-community |
ChatOllama | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | langchain-community |
ChatOpenAI | ✅ | ❌ | ❌ | ❌ | ✅ | ✅ | langchain-openai |
ChatPerplexity | ✅ | ❌ | ✅ | ❌ | ❌ | ❌ | langchain-community |
ChatPremAI | ✅ | ❌ | ✅ | ❌ | ❌ | ❌ | langchain-community |
ChatSparkLLM | ✅ | ❌ | ✅ | ❌ | ❌ | ❌ | langchain-community |
ChatTongyi | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | langchain-community |
ChatVertexAI | ✅ | ❌ | ❌ | ❌ | ✅ | ✅ | langchain-google-vertexai |
ChatYandexGPT | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | langchain-community |
ChatYuan2 | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | langchain-community |
ChatZhipuAI(调用工具应该是可以的) | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | langchain-community |
ErnieBotChat | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ | langchain-community |
GPTRouter | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | langchain-community |
GigaChat | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | langchain-community |
JinaChat | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | langchain-community |
LlamaEdgeChatService | ✅ | ❌ | ✅ | ❌ | ❌ | ❌ | langchain-community |
MiniMaxChat | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | langchain-community |
PaiEasChatEndpoint | ✅ | ❌ | ❌ | ✅ | ❌ | ❌ | langchain-community |
PromptLayerChatOpenAI | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ | langchain-community |
QianfanChatEndpoint | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | langchain-community |
SolarChat | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | langchain-community |
VolcEngineMaasChat | ✅ | ❌ | ✅ | ❌ | ❌ | ❌ | langchain-community |
V03版本
T1、GPT系列
GPT3.5
LLMs之ToolAgent:基于LangChain框架采用Agent根据用户文本输入+指定工具+历史对话实现记忆功能和检索功能的智能查询—定义工具集(检索工具【根据指定网页检索】+Tavily搜索工具【爬虫实时最新搜索】)并初始化→创建Agent(采用更优的GPT3.5+提供指定工具集+模板prompt)并定义Agent执行器→基于用户查询Agent进行响应并对比(仅基于工具直接回答/基于历史信息和工具来回答)
https://yunyaniu.blog.csdn.net/article/details/137743365
LLMs之ToolAgent:基于LangChain框架的LangServe提供FastAPI服务的ToolAgent应用实战案例—通过接收用户输入+Agent调用语言模型并利用检索工具来处理输入(提供关于查询的相关信息)然后返回相应的输出—创建retriever检索器(加载指定网页数据+文本分割+利用OpenAIEmbeddings文档向量化到FAISS)→定义工具集(将retriever包装为检索工具【根据指定网页检索】+Tavily搜索工具【爬虫实时最新搜索】)并初始化→创建Agent(采用更优的GPT3.5+提供指定工具集+模板prompt)并定义Agent执行器→利用FastAPI(标题+版本+描述)创建应用程序→添加路由(定义输入和输出模型+添加一个路由到FastAPI应用)→启动应用(通过Uvicorn启动FastAPI应用并监听)
https://yunyaniu.blog.csdn.net/article/details/137751029
GPT-4
LLMs之ToolAgent:基于LangChain框架通过使用搜索API来增强大型语言模型的响应效果并基于几个特定问题来评估和对比不同搜索API的效果——定义四个不同的API工具(作用是互联网上获取最新信息+为使结果更具可比性将返回结果数量设置为3)→创建Agent(采用GPT4+提供某1个指定工具+模板prompt)并定义Agent执行器→评估服务(定义instruction(包含评估标准/返回细节)合并到prompt+采用GPT-4回答【temperature设为0以确保模型更具确定性】→构建LLM链返回Json格式)→执行过程(循环工具和问题+利用ask_agent函数获取回答+采用eval_service函数对回答进行评估)
https://yunyaniu.blog.csdn.net/article/details/137759509
GLM-4o
更新中……
o1
更新中……
T2、Claude系列
Claude-2
LLMs之Agent之XMLAgent/JsonChatAgent/StructuredChat/ReAct:基于LangChain框架构建一个基于LLM(采用claude-2.1驱动)能够利用XML结构化数据进行对话的Agent系统(可以执行更复杂的任务,如信息检索、数据格式转换等)—定义工具列表(如TavilySearchResults)→创建XMLAgent(将llm【XML采用claude-2.1/Json和Structured采用ChatOpenAI】、tools、prompt【提示模板】打包给create_xml_agent+定义AgentExecutor)→测试XML Agent(用户输入dict格式+直接测试/带记忆的测试)→自定义XMLAgent并测试(中间步骤过程字符串化以嵌入到提示中/工具列表字符串化以嵌入到提示中→定义agent(采用管道操作符|实现)→定义AgentExecutor→测试XMLAgent【应与提示中指定的格式同步】)
https://yunyaniu.blog.csdn.net/article/details/137847858
Claude-3
T3、GLM系列
ChatGLM3
LLMs之ChatGLM3:ChatGLM3/ChatGLM3-6B的简介(多阶段增强+多模态理解+AgentTuning技术)、安装和使用方法、案例应用(实现多轮对话能力(Chat)、工具调用能力(Function Call)、代码执行能力(Code Interpreter)→进而实现 Agent 复杂任务场景)之详细攻略
LLMs之ToolAgent:基于ChatGLM3模型构造可使用多种工具且考虑历史对的Agent实现交互式对话聊天机器人(可通过分析response来探究LLM如何理解并调用最相关工具的机制原理)——加载模型和分词器→基于工具集合和指令提示来定义一个system角色的提示文本→构建与用户进行交互的无限循环(提示用户输入+调用模型回应并更新历史对话+若响应为dict则将角色从user更新为observation+继续循环)
https://yunyaniu.blog.csdn.net/article/details/135444377
GLM-4
LLMs之GLM-4:GLM-4的简介(全覆盖【对话版即ChatGLM4的+工具调用+多模态文生图】能力→Agent)、安装和使用方法、案例应用之详细攻略
LLMs之GLM-4:GLM-4的简介(全覆盖【对话版即ChatGLM4的+工具调用+多模态文生图】能力→Agent)、安装和使用方法、案例应用之详细攻略-CSDN博客
T4、Qwen系列
Qwen-2
更新中……
Qwen-2.5
更新中……
Agent的部署框架
T1、基于LangChain框架实现
Py之Langchain:Langchain(LLM大型语言模型应用程序框架/将LLMs个体进行flow的能力)的简介、安装、使用方法之详细攻略
Py之Langchain:Langchain(LLM大型语言模型应用程序框架/将LLMs个体进行flow的能力)的简介、安装、使用方法之详细攻略-CSDN博客
LangChain之Agent:LangChain框架中与Agent相关的概念简介、Agent分类(五大维度分类/8种代理)、常用函数、案例应用之详细攻略
LangChain之Agent:LangChain框架中与Agent相关的概念简介、Agent分类(五大维度分类/8种代理)、常用函数、案例应用之详细攻略-CSDN博客
LLMs之Langchain之Agent:案例集合—利用langchain实现Agent的多种组合工具应用(如调用ChatGPT的API+wikipedia工具+llm-math计算器工具实现实现回答问题任务)
https://yunyaniu.blog.csdn.net/article/details/133256074
LLMs之SQL_Prompt之ToolAgent:基于LangChain框架结合LLM(GPT-4)将自然语言转换为SQL并通过连接数据库执行查询功能实战案例——构建LLM(OpenAI模型)→创建SQL数据库工具(连接192.168.11.7地址的Teradata【可扩展的关系型数据库】的Sales【数据库名】)→构建基于SQL工具的Agent并测试(创建并运行SQL代理+初始测试与数据库对话+测试复杂问题【失败】)→基于重新定义代理提示来再次构建基于SQL的Agent并测试(定义prompt+重新构建基于SQL的Agent+重新测试+更多测试)
https://yunyaniu.blog.csdn.net/article/details/136693891
LLMs之ToolAgent之ChatGLM-3:基于LangChain框架采用ChatGLM3通过调用自定义的工具实现ToolAgent的功能(arxiv论文查询、天气查询、数值计算等单工具调用或者多工具调用)输出详解实战
LLMs之KG-RAG-Agent:基于LangChain框架利用知识图谱(Neo4j构建知识图数据库+Cyphe查询语言)结合RAG技术打造多种工具的Agent进而实现与图知识库对话查询的机器人应用实战案例——导入知识图谱数数据(Neo4j)→基于向量索引和OpenAIEmbeddings构建RetrievalQA并测试相似性搜索→创建一个GraphCypherQAChain的Cyphe图查询式问答系统并并使用知识图谱测试→创建多模态Agent并测试(定义一个工具列表【Tasks/Graph】+创建一个多模态Agent+测试多模态Agent回答问题)
https://yunyaniu.blog.csdn.net/article/details/137618054
LLMs之ToolAgent:基于LangChain框架(+LangSmith跟踪)来创建一个能够利用工具(如搜索引擎和文档检索器)以及参考聊天历史信息来响应用户输入的代理——定义工具转换为AGent格式并创建工具列表(Tavily【在线搜索】和和Retriever【本地检索】)→创建Agent(定义llm【ChatOpenAI+温度为0】和prompt+定义Agent【使用LLM、Prompt和Tools来初始化Agent】+定义Agent执行器【思考这些组件】)→创建并测试两种Agent→带有记忆功能的Agent→创建chat_history+添加聊天历史支持【RunnableWithMessageHistory】+基于聊天历史测试Agent
LLMs之Agent之Self-ask with Search:基于LangChain框架实现SawS Agent(自我提问并搜索)—初始化工具列表(TavilyAnswer)→创建SawS Agent(将llm【采用Fireworks】、tools、prompt【提示模板】打包给create_self_ask_with_search_agent+定义AgentExecutor)→测试SawS Agent(用户输入dict格式)
https://yunyaniu.blog.csdn.net/article/details/137878420
T2、基于LangGraph框架实现
LLMs之LangGraph:LangGraph(以图逻辑的方式处理复杂流程任务/带有循环功能的Agent)的简介、安装和使用方法、案例应用之详细攻略
LLMs之GraphRoute/GraphETA—GPT-4/Qwen-2:基于langgraph框架利用状态图(更灵活的代理器工作流)+条件边(动态路由到下一步执行的节点)来构建一个循环代理器来实现了Agent的自动化决策和工具调用(解决LLM在处理对话和工具调用时的困难)—定义工具集→定义模型(GPT-3.5)并绑定使用的工具→定义代理状态AgentState和节点→定义状态图(代理器的工作流程,包括添加Agent节点【调用模型】/工具调用节点【调用工具】+设置Agent为入口节点+设置条件边【决定下一步执行的节点】+实现环)并编译(转换为可执行的对象)→模型测试(调用代理器执行来生成
https://yunyaniu.blog.csdn.net/article/details/138919067
T3、LlamaIndex Workflows
持续更新中……
LLM之RAG之LlaMAIndex:llama-index(一块轻快构建索引来查询本地文档的数据框架神器)的简介、安装、使用方法之详细攻略
LLM之RAG之LlaMAIndex:llama-index(一块轻快构建索引来查询本地文档的数据框架神器)的简介、安装、使用方法之详细攻略-CSDN博客
Agent的代表性模型或框架
0、智能体分类:单智能体(BabyAGI/AutoGPT/HuggingGPT/GPT-Engineer/Samantha/AppAgent/OS-Copilot/Langgraph/)、多智能体(斯坦福虚拟小镇/MetaGPT/AutoGen/ChatDEV/GPTeam/GPT Researcher/TaskWeaver/微软UFO/CrewAI/AgentScope)
>> 单智能体:大语言模型(LLM)+ 观察(obs)+ 思考(thought)+ 行动(act)+ 记忆(mem)。
>> 多智能体:智能体 + 环境 + SOP + 评审 + 通信 + 成本。
类别 | 应用框架 | 特点 | 核心原理 | 优点 | 缺点 | 适应场景 |
单智能体(Single-Agent) | BabyAGI | 任务分解、优先级排序、结果整合 | 早期实践,任务优先级排序模块独特 | 简单实用,任务优先级排序模块独特 | 后续框架中罕见 | 早期智能体 |
AutoGPT | 个人助理,使用外部工具 | 强调外部工具使用,如搜索引擎、页面浏览 | 早期智能体,麻雀虽小五脏俱全 | 迭代次数无法控制,工具有限 | 早期智能体 | |
HuggingGPT | 任务规划、模型选择、执行任务、响应汇总反馈 | 调用HuggingFace上的不同模型 | 提高任务精确度和准确率 | 总体成本未降低太多 | 复杂任务 | |
GPT-Engineer | 基于langchain,解决编码问题 | 创建完整代码仓库 | code-copilot的自动化升级版 | - | 编码场景 | |
Samantha | 反思+观察,基于GPT4-V获取图像和语音信息 | 动态语音交流、实时视觉能力、外部分类记忆、持续进化 | 模仿人类思维和行为的高级人工智能系统 | - | 复杂任务 | |
AppAgent | 基于ground-dino以及gpt view模型,多模态处理 | 基于视觉/多模态,OS级别,直接操控多个app | os级别的agent,系统级操作 | 只支持安卓 | 复杂任务 | |
OS-Copilot | OS级别的Agent,学习使用软件应用 | 自我学习改进,学习使用软件应用、执行特定任务的最佳实践 | 自我学习改进 | - | 复杂任务 | |
Langgraph | langchain功能,允许重构单个agent内部执行流程 | 重构单个agent内部执行流程 | 增加执行流程的灵活性 | - | 复杂任务 | |
多智能体(Multi-Agent) | 斯坦福虚拟小镇 | 反思和记忆检索功能 | 模拟人类的思考方式 | 反思和记忆检索功能 | - | 早期multi-agent项目 |
MetaGPT | 开源,软件公司方式组成,完成软件需求 | 软件公司全过程与精心调配的SOP | 社区活跃度高,新feature不断出现 | - | 复杂任务 | |
AutoGen | 微软开发,通过代理通信实现复杂工作流 | 高度定制,支持人类输入和反馈,工作流优化 | 简化工作流的创建和管理,提供优化工具和方法 | 定制开发成本高 | 复杂工作流 | |
ChatDEV | 多角色智能体,虚拟软件公司,不同角色智能体协作 | 基于Camel,不同Agent角色的沟通关系和顺序由开发者配置 | 支持顺序结构和层级结构的agents | - | 早期multi-agent探索 | |
GPTeam | 多agent合作方式 | 交互比较固定 | - | - | 早期multi-agent探索 | |
GPT Researcher | 串行的Multi-Agent,适配内容生产 | 规划者生成研究问题,执行者寻找相关信息 | 适配内容生产 | - | 内容生产 | |
TaskWeaver | 面向数据分析任务,解释用户请求,执行任务 | 解释命令,将它们转换为代码,并精确地执行任务 | 解释命令,转换为代码,精确执行任务 | - | 数据分析任务 | |
微软UFO | 面向Windows系统,结合自然语言和视觉操作 | 双代理架构,理解并执行Windows操作系统中的图形用户界面(GUI)任务 | 理解自然语言指令,执行GUI操作 | - | 复杂任务 | |
CrewAI | 基于langchain,支持顺序结构和层级结构的agents | 与LangChain生态结合,提供对话代理的灵活性和结构化流程方法 | 动态且适应性强 | - | 复杂任务 | |
AgentScope | 阿里开源,支持分布式框架,工程链路上的优化及监控 | 支持分布式框架,工程链路上的优化及监控 | 支持分布式框架,工程链路上的优化及监控 | - | 复杂任务 |
Agent:awesome-ai-agents项目的简介(最主流AI自主Agent的全面列表及其详情)、分类、使用方法之详细攻略
LLMs之Agent:awesome-ai-agents项目的简介(最主流AI自主Agent的全面列表及其详情)、分类、使用方法之详细攻略-CSDN博客
2022年
2022年5月12日,Gato,DeepMind提出一个通用统一的多模态多任务代理Gato,采用单个神经网络实现各种环境和任务。使用单一的跨领域通用Transform模型,实现不同模态、不同表征和不同载体的多任务多表征智能控制
AGI之Agent:《A Generalist Agent一个通用型代理—Gato》翻译与解读
AGI之Agent:《A Generalist Agent一个通用型代理—Gato》翻译与解读-CSDN博客
2023年
2023年3月30日,AutoGPT— Significant Gravitas Ltd发布一个有趣的概念验证演示:基于GPT-4驱动的能够自主完成任务的人工智能模型(无需人类的干预)。但是通过自然语言接口操作存在可靠性问题
AGI之Agent:AutoGPT(构建和使用AI代理)的简介、安装和使用方法、案例应用之详细攻略
AGI之Agent:AutoGPT(一个实验性的开源尝试使GPT-4完全代理自主)的简介、安装和使用方法、案例应用之详细攻略_auto-gpt-CSDN博客
2023年4月11日,ChemCrow:专注有机合成、药物发现和材料设计等任务,将CoT推理与任务相关的工具相结合=LLM+18个专业工具+LangChain框架,完整性优于GPT-4
AGI之Agent:《ChemCrow: Augmenting large-language models with chemistry tools用化学工具增强大语言模型》翻译与解读
AGI之Agent:《ChemCrow: Augmenting large-language models with chemistry tools用化学工具增强大语言模型》翻译与解读-CSDN博客
2023年4月13日,用于创建可交互的人类行为模拟代理人,实现可信赖度的模拟人类行为模式。Generative Agents—基于Agents的虚拟场景模拟:斯坦福的“虚拟小镇”,由25个AI智能体(每个人物都由LLM控制)复现《西部世界》,模拟了25个虚拟人物在《模拟人生》游戏灵感的沙盒环境中生活和互动(基于过去的经验)
在线测试:https://reverie.herokuapp.com/arXiv_Demo/
AGI之Agent:《Generative Agents: Interactive Simulacra of Human Behavior生成代理:人类行为的交互模拟》翻译与解读
AGI之Agent:《Generative Agents: Interactive Simulacra of Human Behavior生成代理:人类行为的交互模拟》翻译与解读-CSDN博客
2023年5月,SuperAGI是一款开源框架,用于构建、管理和运行有用的自主AI Agent
SuperAGI的概述
简介 | SuperAGI是一款开源框架,用于构建、管理和运行有用的自主AI Agent。一个以开发为先的开源自主AIAgent框架,让开发者能够构建、管理和运行有用的自主代理。您可以无缝运行并扩展代理的能力与工具。这些代理能够高效地执行各种任务,并在每次运行后不断提高性能。 |
特点 | 提供、生成和部署自主AI代理 - 创建生产就绪且可扩展的自主代理。 使用工具包扩展代理功能 - 在市场上添加工具包以扩展代理工作流。 图形用户界面 - 通过图形用户界面访问您的代理。 操作控制台 - 通过提供输入和权限与代理互动。 多个Vector数据库 - 连接到多个Vector数据库以增强代理的性能。 性能遥测 - 获取有关代理性能的见解,并进行相应的优化。 优化的令牌使用 - 控制令牌使用以有效管理成本。 代理内存存储 - 通过存储其记忆使代理能够学习和适应。 模型 - 针对特定业务用例的自定义精细调整模型。 工作流程 - 利用ReAct LLM的预定义步骤轻松自动化任务。 |
工具包 | 工具包允许SuperAGI代理与外部系统和第三方插件进行交互。 Twitter 编码工具 Instagram 知识搜索 邮件 Jira 文件管理器 Google 搜索 Dall-E Github 网页交互 Duckduckgo Google 日历 Google 日历 Serp API Searx 网页爬虫 Notion Apollo |
2023年6月,GPT-Engineer:根据提示生成整个代码库,其采用LLM进行任务细分和需求澄清
2023年9月,微软正式开源AutoGen,通过多个代理进行对话以解决任务,从而实现LLM应用的开发。
LLMs之Agent之AutoGen:AutoGen的简介、安装、使用方法之详细攻略
LLMs之Agent之AutoGen:AutoGen的简介、安装、使用方法之详细攻略-CSDN博客
2023年12月,清华大学提出了一个名为GitAgent的代理系统,可以自动从Github中扩充工具来解答用户查询
AGI之Agent:《GitAgent: Facilitating Autonomous Agent with GitHub by Tool Extension通过工具扩展实现与GitHub的自主代理》翻译与解读
2024年
2024年2月27日,发布Agentscope,是一款更简单地构建基于LLM的多智能体应用。
LLMs之Agent:Agentscope的简介、安装和使用方法、案例应用之详细攻略
LLMs之Agent:Agentscope的简介、安装和使用方法、案例应用之详细攻略_agentscope本地部署-CSDN博客
2024年3月17日,Skyvern是一个浏览器自动化平台,它利用语言模型(LLM)和计算机视觉来自动化基于浏览器的工作流
Agent之ETA之Skyvern:Skyvern(利用 LLM 和计算机视觉自动化基于浏览器的工作流程)的简介、安装和使用方法、案例应用之详细攻略
Agent之ETA之Skyvern:Skyvern(利用 LLM 和计算机视觉自动化基于浏览器的工作流程)的简介、安装和使用方法、案例应用之详细攻略-CSDN博客
2024年5月,Lares是一个由简单的 AI 代理驱动的智能家居助手模拟器,并展现出令人惊讶的解决问题能力。模拟器包含五个房间,每个房间都有一个可以开关的灯,以及一些可移动的物品(例如狗和人)。 代理可以通过机器人来查看房间内隐藏的物品,但机器人只能在光线充足的房间内工作。
LLMs之Agent之Lares:Lares的简介、安装和使用方法、案例应用之详细攻略
LLMs之Agent之Lares:Lares的简介、安装和使用方法、案例应用之详细攻略-CSDN博客
2024年5月,OpenBB LLM Agents是结合了大型语言模型(LLM)和OpenBB平台,旨在创建能够自主执行金融研究并使用最新数据回答问题的金融分析师代理
LLMs之openbb-agents:openbb-agents的简介、安装和使用方法、案例应用之详细攻略
LLMs之openbb-agents:openbb-agents的简介、安装和使用方法、案例应用之详细攻略_openbb agents-CSDN博客
2024年5月9日,CodiumAI发布Cover Agent,它旨在通过自动生成合格的测试来提高代码覆盖率
Agent之Cover Agent:Cover Agent(用于提升自动化测试生成和代码覆盖率)的简介、安装和使用方法、案例应用之详细攻略
Agent之Cover Agent:Cover Agent(用于提升自动化测试生成和代码覆盖率)的简介、安装和使用方法、案例应用之详细攻略_cover-agent-CSDN博客
2024年6月,Andrew Ng发布Translation Agent,这是一种基于反射工作流程的代理翻译
LLMs之translation-agent:translation-agent的简介、安装和使用方法、案例应用之详细攻略
LLMs之translation-agent:translation-agent的简介、安装和使用方法、案例应用之详细攻略-CSDN博客
2024年6月6日,Andrew Ng在Snowflake活动上发布vision-agent,利用代理框架生成代码来解决视觉任务
LLMs之Agent之vision-agent:vision-agent的简介、安装和使用方法、案例应用之详细攻略
LLMs之Agent之vision-agent:vision-agent的简介、安装和使用方法、案例应用之详细攻略_vision agent-CSDN博客
2024年7月,Deaddit是一个技术演示项目,展示了一个完全由AI生成内容的互联网可能是什么样子,它模拟了一个类似Reddit的网站。
LLM之Agent:Deaddit(一个具有AI用户且类似 Reddit 的网站)的简介、安装和使用方法、案例应用之详细攻略
LLM之Agent:Deaddit(一个具有AI用户且类似 Reddit 的网站)的简介、安装和使用方法、案例应用之详细攻略-CSDN博客
2024年8月,Twitter Personality是一个基于Wordware AI Agent的网络应用程序,用于分析Twitter账户并创建个性化的性格分析报告
LLMs之Agent:Twitter Personality的简介、安装和使用方法、案例应用之详细攻略
LLMs之Agent:Twitter Personality的简介、安装和使用方法、案例应用之详细攻略-CSDN博客
2024年8月,AgentK由多个协同工作的代理组成,这些代理能够根据需要构建新的代理来完成用户的任务。
LLMs之Agent之AgentK:AgentK的简介、安装和使用方法、案例应用之详细攻略
LLMs之Agent之AgentK:AgentK的简介、安装和使用方法、案例应用之详细攻略_agent k-CSDN博客
2024年10月10日,Agent S,一个开放的自主代理框架,旨在通过图形用户界面(GUI)与计算机进行自主交互,从而实现对复杂多步骤任务的自动化,最终目标是让计算机像人类一样工作。
LLMs之Agent:《Agent S: An Open Agentic Framework that Uses Computers Like a Human》翻译与解读
LLMs之Agent:《Agent S: An Open Agentic Framework that Uses Computers Like a Human》翻译与解读-CSDN博客
2024年10与25日,智谱AI发布AutoGLM,通过图形用户界面(GUI),例如手机和网页,实现自主任务完成代理。
Agent之AutoGLM:AutoGLM(面向GUI的自主基础代理)的简介、安装和使用方法、案例应用之详细攻略
Agent之AutoGLM:AutoGLM(面向GUI的自主基础代理)的简介、安装和使用方法、案例应用之详细攻略-CSDN博客
2024年10月,OpenAI发布开源Swarm 。Swarm 是一个探索人体工程学、轻量级多智能体编排的教育框架,由 OpenAI 解决方案团队管理
Agent之Swarm:Swarm的简介、安装和使用方法、案例应用之详细攻略
Agent之Swarm:Swarm的简介、安装和使用方法、案例应用之详细攻略_swarm agent设置-CSDN博客
2024年11月4日,Microsoft团队发布Magentic-One,一个用于解决复杂任务的通用型多智能体系统。
LLMs之Agent:Magentic-One的简介、安装和使用方法、案例应用之详细攻略
LLMs之Agent:Magentic-One的简介、安装和使用方法、案例应用之详细攻略-CSDN博客
Agent的案例应用
1、基础案例
LLMs之SQLAgent:基于LangChain框架结合LLM(GPT-4)将自然语言转换为SQL并通过连接数据库执行查询功能实战案例——构建LLM(OpenAI模型)→创建SQL数据库工具(连接192.168.11.7地址的Teradata【可扩展的关系型数据库】的Sales【数据库名】)→构建基于SQL工具的Agent并测试(创建并运行SQL代理+初始测试与数据库对话+测试复杂问题【失败】)→基于重新定义代理提示来再次构建基于SQL的Agent并测试(定义prompt+重新构建基于SQL的Agent+重新测试+更多测试)
https://yunyaniu.blog.csdn.net/article/details/136693891
2、进阶案例
持续更新中……