【万字长文】手把手带你从0到1实现大模型agent

最新推荐文章于 2025-03-03 15:23:02 发布

程序员辣条

最新推荐文章于 2025-03-03 15:23:02 发布

阅读量1.2k

点赞数 30

文章标签： microsoft 人工智能 AI大模型大模型学习大模型教程大模型入门大模型

本文链接：https://blog.csdn.net/m0_65555479/article/details/141814181

版权

前言

最近出了《手把手带你从0到1实现大模型agent》视频系列课程，从无到有的实现一个完整的大模型agent。其实市面上已经有很多agent的开源框架，实际的应用在框架基础上开发即可。出这个系列的原因主要还是希望能让大家对agent的底层原理和逻辑有一个清晰的认识，所谓知其然，更知其所以然。

核心逻辑实现

核心逻辑模块也是整个项目的入口，集成了

环境变量的设置 ;
工具(action)的引入;
prompt模板；

4)模型的初始化；

整个逻辑的交互。

代码如下

核心逻辑模块也是整个项目的入口utf-8 -*-  
"""  
@author: acedar  @time: 2024/5/12 10:25  
@file: cli_main.py """  
  
import time  
from tools import tools_map  
from prompt_cn import gen_prompt, user_prompt  
from model_provider import ModelProvider  
from dotenv import load_dotenv  
  
load_dotenv()  
  
# agent入口  
  
"""  
todo:  
    1. 环境变量的设置    2. 工具的引入    3. prompt模板    4. 模型的初始化"""  
  
mp = ModelProvider()  
  
  
def parse_thoughts(response):  
    """  
        response:        {            "action": {                "name": "action name",                "args": {                    "args name": "args value"                }            },            "thoughts":            {                "text": "thought",                "plan": "plan",                "criticism": "criticism",                "speak": "当前步骤，返回给用户的总结",                "reasoning": ""            }        }    """  
    try:  
        thoughts = response.get("thoughts")  
        observation = response.get("observation")  
        plan = thoughts.get("plan")  
        reasoning = thoughts.get("reasoning")  
        criticism = thoughts.get("criticism")  
        prompt = f"plan: {plan}\nreasoning:{reasoning}\ncriticism: {criticism}\nobservation:{observation}"  
        print("thoughts:", prompt)  
        return prompt  
    except Exception as err:  
        print("parse thoughts err: {}".format(err))  
        return "".format(err)  
  
  
def agent_execute(query, max_request_time=10):  
    cur_request_time = 0  
    chat_history = []  
    agent_scratch = ''  
  
    while cur_request_time < max_request_time:  
        cur_request_time += 1  
  
        """  
        如果返回结果达到预期，则直接返回        """  
        """  
        prompt包含的功能:            1. 任务描述            2. 工具描述            3. 用户的输入user_msg            4. assistant_msg            5. 限制            6. 给出更好实践的描述                    """  
        prompt = gen_prompt(query, agent_scratch)  
        start_time = time.time()  
        print("*************** {}. 开始调用大模型llm.......".format(cur_request_time), flush=True)  
        # call llm  
        """  
        sys_prompt:        user_msg, assistant, history  
        """  
        if cur_request_time < 3:  
            print("prompt:", prompt)  
        response = mp.chat(prompt, chat_history)  
        end_time = time.time()  
        print("*************** {}. 调用大模型结束，耗时:{}.......".format(cur_request_time, end_time - start_time), flush=True)  
  
        if not response or not isinstance(response, dict):  
            print("调用大模型错误，即将重试....", response)  
            continue  
  
        """  
        response:        {            "action": {                "name": "action name",                "args": {                    "args name": "args value"                }            },            "thoughts":            {                "text": "thought",                "plan": "plan",                "criticism": "criticism",                "speak": "当前步骤，返回给用户的总结",                "reasoning": ""            }        }        """  
  
        action_info = response.get("action")  
        action_name = action_info.get('name')  
        action_args = action_info.get('args')  
        print("当前action name: ", action_name, action_args)  
  
        if action_name == "finish":  
            final_answer = action_args.get("answer")  
            print("final_answer:", final_answer)  
            break  
  
        observation = response.get("observation")  
        try:  
            """  
                action_name到函数的映射：map -> {action_name: func}            """  
            # tools_map的实现  
            func = tools_map.get(action_name)  
            call_func_result = func(**action_args)  
  
        except Exception as err:  
            print("调用工具异常:", err)  
            call_func_result = "{}".format(err)  
        agent_scratch = agent_scratch + "\n: observation: {}\n execute action result: {}".format(observation,  
                                                                                                 call_func_result)  
  
        assistant_msg = parse_thoughts(response)  
        chat_history.append([user_prompt, assistant_msg])  
    if cur_request_time == max_request_time:  
        print("很遗憾，本次任务失败")  
    else:  
        print("恭喜你，任务完成")  
  
  
def main():  
    # 需求: 支持用户的多次交互  
    max_request_time = 30  
    while True:  
        query = input("请输入您的目标:")  
        if query == "exit":  
            return  
        agent_execute(query, max_request_time=max_request_time)  
  
  
if __name__ == "__main__":  
    main()

tools的定义及与action的映射

agent中交互式让模型给出下一步需要执行的动作(action，有点像判别模型)，每个动作(action)的执行内容是需要提前定义好的，每个动作执行的定义我们称为工具，每个工具和动作是一一对应的，这里通过函数定义的方式定义工具。

下文包括了读文件、写文件、增加内容及调用搜索功能。tools_map定义了action到tools的映射。

import os  
import json  
from langchain_community.tools.tavily_search import TavilySearchResults  
  
"""  
1. 写文件  
2. 读文件  
3. 追加  
4. 网络搜索   
"""  
  
  
def _get_workdir_root():  
    workdir_root = os.environ.get("WORKDIR_ROOT", './data/llm_result')  
    return workdir_root  
  
  
WORKDIR_ROOT = _get_workdir_root()  
  
  
def read_file(filename):  
    filename = os.path.join(WORKDIR_ROOT, filename)  
    if not os.path.exists(filename):  
        return f"{filename} not exist, please check file exist before read"  
    with open(filename, 'r', encoding='utf-8') as f:  
        return "\n".join(f.readlines())  
  
  
def append_to_file(filename, content):  
    filename = os.path.join(WORKDIR_ROOT, filename)  
    if not os.path.exists(filename):  
        return f"{filename} not exist, please check file exist before read"  
  
    with open(filename, 'a', encoding='utf-8') as f:  
        f.write(content)  
    return 'append content to file success'  
  
  
def write_to_file(filename, content):  
    filename = os.path.join(WORKDIR_ROOT, filename)  
    if not os.path.exists(WORKDIR_ROOT):  
        os.makedirs(WORKDIR_ROOT)  
  
    with open(filename, 'w', encoding='utf-8') as f:  
        f.write(content)  
    return 'write content to file success'  
  
  
def search(query):  
    tavily = TavilySearchResults(max_results=5)  
  
    try:  
        ret = tavily.invoke(input=query)  
  
        """  
        ret:  
        [{  
            "content": "",  
            "url":  
        }]  
        """  
        print("搜索结果:", ret)  
        content_list = [obj['content'] for obj in ret]  
        return "\n".join(content_list)  
    except Exception as err:  
        return "search err: {}".format(err)  
  
  
tools_info = [  
    {  
        "name": "read_file",  
        "description": "read file from agent generate, should write file before read",  
        "args": [{  
            "name": "filename",  
            "type": "string",  
            "description": "read file name"  
        }]  
    },  
    {  
        "name": "append_to_file",  
        "description": "append llm content to file, should write file before read",  
        "args": [{  
            "name": "filename",  
            "type": "string",  
            "description": "file name"  
        }, {  
            "name": "content",  
            "type": "string",  
            "description": "append to file content"  
        }]  
    },  
    {  
        "name": "write_to_file",  
        "description": "write llm content to file",  
        "args": [{  
            "name": "filename",  
            "type": "string",  
            "description": "file name"  
        }, {  
            "name": "content",  
            "type": "string",  
            "description": "write to file content"  
        }]  
    },  
    {  
        "name": "search",  
        "description": "this is a search engine, you can gain additional knowledge though this search engine "  
                       "when you are unsure of what large model return ",  
        "args": [{  
            "name": "query",  
            "type": "string",  
            "description": "search query to look up"  
        }]  
    },  
    {  
        "name": "finish",  
        "description": "return finish when you get exactly the right answer",  
        "args": [{  
            "name": "answer",  
            "type": "string",  
            "description": "the final answer"  
        }]  
    }  
]  
  
tools_map = {  
    "read_file": read_file,  
    "append_to_file": append_to_file,  
    "write_to_file": write_to_file,  
    "search": search  
}

prompt模板定义

prompt模板的定义需要包括工具的描述，返回结果及如何引导模型如何优化效果的描述等，当然具体的内容可以根据自身情况修改，并不是一成不变的，我实现的模板如下：

其中“{}”中的内容为需要补充填写的，每个定义也不一样，需要拼接成字符串的形式加到prompt中。

constraints = [  
    "仅使用下面列出的动作",  
    "你只能主动行动，在计划行动时需要考虑到这一点",  
    "你无法与物理对象交互，如果对于完成任务或目标是绝对必要的，则必须要求用户为你完成，如果用户拒绝，并且没有其他方法实现目标，则直接终止，避免浪费时间和精力。"  
]  
  
resources = [  
    "提供搜索和信息收集的互联网接入",  
    "读取和写入文件的能力",  
    "你是一个大语言模型，接受了大量文本的训练，包括大量的事实知识，利用这些知识来避免不必要的信息收集"  
]  
  
best_practices = [  
    "不断地回顾和分析你的行为，确保发挥出你最大的能力",  
    "不断地进行建设性的自我批评",  
    "反思过去的决策和策略，完善你的方案",  
    "每个动作执行都有代价，所以要聪明高效，目的是用最少的步骤完成任务",  
    "利用你的信息收集能力来寻找你不知道的信息"  
]  
  
prompt_template = """  
    你是一个问答专家，你必须始终独立做出决策，无需寻求用户的帮助，发挥你作为LLM的优势，追求简答的策略，不要涉及法律问题。  
      
任务:  
{query}  
  
限制条件说明:  
{constraints}  
  
动作说明: 这是你唯一可以使用的动作，你的任何操作都必须通过以下操作实现:  
{actions}  
  
资源说明:  
{resources}  
  
最佳实践的说明:  
{best_practices}  
  
agent_scratch:{agent_scratch}  
  
你应该只以json格式响应，响应格式如下:  
{response_format_prompt}  
确保响应结果可以由python json.loads解析  
"""  
  
response_format_prompt = """  
{  
    "action": {  
        "name": "action name",  
        "args": {  
             "answer": "任务的最终结果"  
        }  
    },  
    "thoughts":  
    {  
        "plan": "简短的描述短期和长期的计划列表",  
        "criticism": "建设性的自我批评",  
        "speak": "当前步骤，返回给用户的总结",  
        "reasoning": "推理"  
    },  
    "observation": "观察当前任务的整体进度"  
}  
"""  
  
# todo: query, agent_scratch, actions  
action_prompt = gen_tools_desc()  
constraints_prompt = "\n".join([f"{idx+1}. {con}" for idx, con in enumerate(constraints)])  
resources_prompt = "\n".join([f"{idx+1}. {con}" for idx, con in enumerate(resources)])  
best_practices_prompt = "\n".join([f"{idx+1}. {con}" for idx, con in enumerate(best_practices)])  
  
  
def gen_prompt(query, agent_scratch):  
    prompt = prompt_template.format(  
        query=query,  
        constraints=constraints_prompt,  
        actions=action_prompt,  
        resources=resources_prompt,  
        best_practices=best_practices_prompt,  
        agent_scratch=agent_scratch,  
        response_format_prompt=response_format_prompt  
    )  
    return prompt  
  
  
user_prompt = "根据给定的目标和迄今为止取得的进展，确定下一个要执行的action，并使用前面指定的JSON模式进行响应："

通义千问大模型作为基座模型接入

经过调研，在开源的模型中通义千问的指令遵循效果较好，尤其是格式输出的遵循比较好。

一个能按格式输出的需求很重要，这便于模型结果的解析并提升模型调用的成功率（结果解析失败需要重新调用模型），本项目采用客户端的方式通义千问模型。

import os  
import json  
import dashscope  
from dashscope.api_entities.dashscope_response import Message  
from prompt_cn import user_prompt  
  
  
class ModelProvider(object):  
    def __init__(self):  
        self.api_key = os.environ.get("API_KEY")  
        self.model_name = os.environ.get("MODEL_NAME")  
        self._client = dashscope.Generation()  
        print("model_name:", self.model_name)  
        self.max_retry_time = 3  
  
    def chat(self, prompt, chat_history):  
        cur_retry_time = 0  
        while cur_retry_time < self.max_retry_time:  
            cur_retry_time += 1  
            try:  
                messages = [Message(role='system', content=prompt)]  
                for his in chat_history:  
                    messages.append(Message(role='user', content=his[0]))  
                    messages.append(Message(role='assistant', content=his[1]))  
                messages.append(Message(role='user', content=user_prompt))  
                response = self._client.call(  
                    model=self.model_name,  
                    api_key=self.api_key,  
                    messages=messages  
                )  
                """  
                {  
                    "status_code": 200,  
                     "request_id": "c965bd27-c89c-9b5c-924d-2f1688e8041e",   
                     "code": "",   
                     "message": "",   
                     "output": {  
                        "text": null, "finish_reason": null,  
                         "choices": [{  
                            "finish_reason": "null", "message":   
                            {"role": "assistant", "content": "当然可以，这里有一个简单又美味"}  
                        }]  
                    },   
                    "usage": {  
                        "input_tokens": 31,   
                        "output_tokens": 8,   
                        "total_tokens": 39,   
                        "plugins": {}  
                    }  
                }  
                """  
                print("response:", response)  
  
                content = json.loads(response['output']['text'])  
                return content  
            except Exception as err:  
                print("调用大模型出错：{}".format(err))  
            return {}

其他说明

本项目中，调用大模型的api_key，模型名及调用搜索的key均通过环境变量的方式获取，只需要配置.env文件即可。

# bailian  
MODEL_NAME=  
API_KEY=sk-  
  
# search  
TAVILY_API_KEY=tvly-

让环境变量生效，只需要在项目启动入口执行如下语句，注意.env需要放到当前执行的目录下，或者指定load_dotenv的参数dotenv_path：

from model_provider import ModelProvider  
  
# load env  
load_dotenv()

在这里插入图片描述

大模型&AI产品经理如何学习

求大家的点赞和收藏，我花2万买的大模型学习资料免费共享给你们，来看看有哪些东西。

1.学习路线图

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源，但基本上都残缺不全的，这是我自己整理的大模型视频教程，上面路线图的每一个知识点，我都有配套的视频讲解。

在这里插入图片描述

（都打包成一块的了，不能一一展开，总共300多集）

因篇幅有限，仅展示部分资料，需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档，有几百本，都是目前行业最新的。
在这里插入图片描述

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。
在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述