langchian入门四:LLM+Agents代理=贾维斯?让大模型拥有三头六臂

人工智能小豪

已于 2024-05-05 13:36:53 修改

阅读量1.1k

点赞数 10

文章标签：人工智能机器学习算法 opencv YOLO

于 2024-03-25 15:45:46 首次发布

本文链接：https://blog.csdn.net/2301_81888214/article/details/137016492

版权

本文探讨了如何利用大模型构建具有自主决策能力的Agent，涉及零样本反应、结构化输入反应等不同类型，并展示了如何通过LangChain实现工具集成和对话管理。

摘要由CSDN通过智能技术生成

什么是Agent

在日常生活中,不难发现,chatgpt通过文本输入进行处理后返回的也是文本内容,就像是一个只有头的人,能听能思考能说话,但是无法行动.而Agent是一种能够自主决策、采取行动以达到某种目标的实体。被解释为"智能体"或者"代理".

代理的核心思想是通过大模型来选择要采取的一系列行动.在常规结构下,一系列行动都是硬编码,是已规定好的行为路线,而在代理中,是用大模型作为推理引擎来确定并采取行动的.通俗的讲就是给大模型配备工具,让大模型自己去判断在当前场景需要使用什么工具.

代理的效果与模型的智慧程度有关,大模型的训练集越大,代理的效果越好,差的模型进行代理会陷入某一个自问自答而死循环,好的模型会进行自我验证,验证这个答案是否与最初的问题相关,不相关进行修正.

举个例子:

链式结构下,我会拿着螺丝刀去拧螺丝,拿着钥匙开锁,拿着斧头砍木头.我不会选择工具,而是按照规划的路线行动.

代理情况下,我有螺丝刀,钥匙,斧头等工具,我遇到了一颗螺丝,我会用螺丝刀去拧螺丝. 遇到了一把锁,我会用钥匙去开锁,遇到了木头,我会用斧头去砍木头.在不同的场景或者问题下会进行推理选择.

总而言之:Agent= LLM（思考决策）+ memory（记忆）+ tools(执行)

langchain中代理的关键组成

Agent代理
llm大模型
Tool工具
prompt提示词
Toolkit工具包
AgentExecutor代理执行器

这里使用的是openai的大模型,想要白嫖阿里云的通义千问大模型,还不会prompt提示词以及记忆组件memory的请移步传送门

传送门:

代理的类型

Zero-shot ReAct:利用工具的描述来决定使用哪个工具，可以有多个工具，每个工具都要提供描述信息。选择单纯依靠描述信息
Structured Input ReAct：通过工具的参数schema创建结构化的动作输入
Open AI Functions:与openai function call机制配合工作
Conversational：为对话场景设计，使用具有对话性提示词，利用ReAct框架选择工具，并利用记忆功能来保存对话历史
Self ask with seach：利用工具查找事实性答案

Tool

代理调用的功能，相当于手的部分，与外部世界交互 ,LangChain 提供了一系列工具，比如 Search 工具，AWS 工具，Wikipedia 工具等。这些工具都是 BaseTool 的子类。通过调用 run 函数，执行工具的功能。

如何创建工具

加载langchain内置的工具

python
复制代码
from langchain.tools import load_tools
tools = load_tools(["serpapi"],llm=llm)#谷歌的搜索引擎

通过tool装饰器,自定义工具,在函数中需要描述这个工具

python
复制代码
from langchain.agents import tool
@tool
def serpapi_search(query:str)->str:
    '''使用serpapi搜索引擎获取搜索结果'''
    from serpapi import GoogleSearch
    params = {
        "q": query,
        "api_key": "serpapi-api-key"
    }
    search = GoogleSearch(params)
    results = search.get_dict()
    return results['organic_results'][0]['snippet']
 tools = [serpapi_search]

Tollkit

工具包，一组工具的集合,tools = [serpapi_search]和tools = load_tools(["serpapi"],llm=llm)都是工具包.

AgentExecutor

代理执行器是代理执行时，由它来选择并执行其他选择的动作。

处理代理选择不存在的工具的情况
处理工具发生错误的情况
处理代理生成无法解析为工具调用的输出的情况
在所有级别上记录和可观察性（代理决策，工具调用）

思考的过程

Action:就是根据用户的输入，选用哪个Tool，然后行动
Action Input:根据需要使用的Tool，从用户的输入里提取相关的内容，可以输入到Tool里面
Observation:就是观察通过使用 Tool 得到的一个输出结果。稳定版本之前有展示,稳定版本之后就没有了,但是步骤仍然存在
Thought:就是再看一眼用户的输入，判断一下该怎么做,同样是稳定版本之前有展示,稳定版本之后就没有了,仍然存在
Final Answer:就是 Thought 在看到 Obersavation 之后，给出的最终输出,

创建一个代理

这里来创建一个react代理,给他配备一个谷歌的搜索引擎,让他能去搜索网络上的内容,但是他对中文不友好,用Translator翻译翻译.还配备了一个运算工具,看看他是否在不同情景下能推理并且选择工具

python
复制代码
# 代理模块，用于调用openai的模型进行对话并执行操作
import os
from dotenv import find_dotenv, load_dotenv
load_dotenv(find_dotenv())
os.environ["OPENAI_API_BASE"] 
os.environ["OPENAI_API_KEY"] 
os.environ["SERPAPI_API_KEY"]
from langchain_openai import ChatOpenAI
#引入集成的工具，包含langchain中内置的各种工具。官方文档中查找
from langchain.agents import create_react_agent,AgentExecutor,tool
#引入hub模块，用于调用hub中的模型
from langchain import hub
#引入工具加载器，用于加载工具
from langchain.tools import load_tools
#引入翻译工具
from translate import Translator
#实例化一个大模型
llm=ChatOpenAI(temperature=0, model="gpt-3.5-turbo")
#从hub中拉取模型
prompt = hub.pull("hwchase17/react")

#创建工具

#搜索引擎
@tool
def serpapi_search(query:str)->str:
    '''使用serpapi搜索引擎获取搜索结果'''#工具描述
    from serpapi import GoogleSearch
    params = {
        "q": query,
        "api_key": os.getenv("SERPAPI_API_KEY")
    }
    search = GoogleSearch(params)
    results = search.get_dict()
    return results['organic_results'][0]['snippet']

#运算工具
@tool
def calculate(expression:str)->str:
    '''计算表达式'''
    return str(eval(expression))


# tools = load_tools(["serpapi"],llm=llm)#加载内置工具
tools=[serpapi_search,calculate]#工具包
#创建agent
agent=create_react_agent(
    llm,
    tools,
    prompt,
)
#代理执行器
agent_executor=AgentExecutor(agent=agent,
                              tools=tools,#工具包
                              verbose=True,#执行的详细过程
                              )
                              
def agent_invoke(huamn_input:str):
    text=agent_executor.invoke({"input":huamn_input})
    res=Translator(from_lang="en",to_lang="zh").translate(text['output'])
    return res

if __name__ == "__main__":
    text=input()
    print(agent_invoke(text))

.env文件内容为:

python
复制代码
# 代理地址
OPENAI_API_BASE = ""
# 代理密钥
OPENAI_API_KEY = ""
#谷歌引擎
SERPAPI_API_KEY=""

搜索一下最近发生的事儿,看看结果:

搜索一下时事再来一个来个简单的计算题根据问题情景,大模型能够进行推理选择工具,关于时事的它能够选择搜索工具进行搜索,关于计算的问题,它能够选择运算工具进行回答,也回答正确了.并且我在问题中没有提示他该选择什么工具.

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取==🆓

在这里插入图片描述

人工智能小豪

关注

10
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
langchian入门四:LLM+Agents代理=贾维斯?让大模型拥有三头六臂

在日常生活中,不难发现,chatgpt通过文本输入进行处理后返回的也是文本内容,就像是一个只有头的人,能听能思考能说话,但是无法行动.而Agent是一种能够自主决策、采取行动以达到某种目标的实体。
复制链接

扫一扫