LLM大模型应用开发之准备篇（OpenAI的plugins、GPTs与RAG、Agent）

大模型老猿

于 2024-07-16 15:52:28 发布

阅读量444

点赞数 4

文章标签： chatgpt 人工智能 LLM 深度学习 langchain prompt 大模型

本文链接：https://blog.csdn.net/DEVELOPERAA/article/details/140468657

版权

今天这个章节是为了接下来我们使用大模型做应用开发做准备。

大家陆续在很多文章中可能已经看到过了很多概念，比如plugins、GPTs、Agent，这里面自ChatGPT3.5爆火以来，有众多的AI创业公司从不同的切入点在做，OpenAI公司也在不断推进自家产品的核心能力和生态的迭代更新，比如去年最引人瞩目的GPT-4 turbo的发布。

接下来我们就以OpenAI的产品来介绍下这些概念，以及在GPT-4 turbo中出现的GPTs等的解读和应用。

OpenAI的plugins与GPTs(Actions)

ChatGPT的"Actions"与"Plugins"是OpenAI在GPT模型中引入的两种不同的功能扩展机制。这两种机制的目的是增强模型的功能，使其能够处理更多样化的任务和请求。

plugins的始末

plugins的推出

2023年（北京时间）3月24凌晨，OpenAI宣布，ChatGPT中初步实现对插件的支持。 （Plugins are tools designed specifically for language models with safety as a core principle, and help ChatGPT access up-to-date information, run computations, or use third-party services.）

推出以来，开发者们已经构建了数千个ChatGPT插件，包括来自Expedia、Instacart和Kayak等公司的插件。

简单点说，插件能够使ChatGPT参与开发者定义的API互动，增强ChatGPT的能力。有点类似于苹果的appstore。

引入插件Plugin标志ChatGPT走在创建生态系统的伟大道路上，统一平台+插件的模式有望构建与苹果+App Store相似的繁荣生态。

同时，Plugin的推出给了广大的开发者更多的参与大模型的机会。

再见，ChatGPT插件，Hello，GPTs

自2024年3月19日起，将不再允许创建带插件的新对话，这一变化意味着，用户和开发者将无法安装新插件或利用现有插件创建新的对话。

为什么要结束插件测试版？

官方的回答是：

“With the launch of GPTs and the GPT store, we were able to make many improvements that plugin users had asked for. GPTs now have full feature parity (in addition to many new features) with plugins.”

即“随着 GPTs 和 GPT 商店的推出，我们能够根据插件用户的要求进行许多改进。GPTs 现在具有与插件相同的完整功能（除了许多新功能之外）。”

GPTs的推出，使得普通人也能在GPT的辅助下自己创建智能体（尽管因每个人的能力不同，创建的智能体的能力强弱也各有差异）。

如果你在微博上搜索 ChatGPT Plugins，热门内容还是一年前的那场发布会演示和评论，所有人都在感叹向第三方开放 ChatGPT 的能力有多逆天，结果 OpenAI 自己就用 GPTs 把 ChatGPT Plugins 给干掉了。

具体为什么OpenAI会在一年以后关闭Plugins，网上有很多推论，可能和OpenAI的布局有关，也可能和目前的安全有关。但是这都不妨碍原本的很多插件也都开发了GPTs，很多GPTs已经可以替代绝大部分插件的功能了。GPT商店已经拥有数十万个GPTs，涵盖写作、生产力、编程、教育等类别。

GPTs的推出使得非开发者的普通人，也可以投入到大模型的浪潮。

二者的对比

ChatGPT Plugins 是需要本地开发的，API 权限卡得特别严格，但大多数 GPTs 却都是直接基于 Web 端创建的，甚至不需要编程。

Plugins

定义与用途：Plugins（插件）是一种用于扩展ChatGPT功能的机制，允许模型与外部系统交互。例如，可以与数据库、API或其他软件服务进行交互。

工作方式：当ChatGPT需要获取外部信息或执行某些不仅仅依赖文本生成的任务时，会通过这些插件与外部系统通信。

应用实例：例如，ChatGPT可以通过一个天气插件来获取实时天气信息，或者通过搜索引擎插件来提供最新的搜索结果。

Actions

定义与用途：Actions（动作）是ChatGPT的一种新功能，旨在允许模型在对话中直接执行特定的动作，这些动作可能涉及模型的内部功能或特定的任务执行。

新特性：直接交互：Actions可以让模型在对话中直接触发和执行特定任务，如生成图像、执行代码等，无需外部插件介入。任务多样性：支持多种不同的任务类型，如文本生成、图像处理、数据分析等。

更流畅的用户体验：通过Actions，用户体验更加直接和流畅，不需要离开对话界面即可完成多种任务。

自定义动作：支持创建自定义动作，以适应特定的用例或需求。

集成内部工具：与内置的工具和功能（如Python环境、DALL-E图像生成等）紧密集成。

总结

Plugins：侧重于与外部系统的交互和集成。 Actions：侧重于在对话中直接执行特定任务，提供了更多样化的内部功能。

GPT4.0 turbo升级上线

提到GPTs就不得不提GPT4.0 turbo，它的出现，是使得众多AI创业者一夜无眠的版本。

借用一个图来说明下它的强大：

这里面有几个爆点：
更长。支持128K上下文输入，标准GPT-4是8K版本，之前升级出了32K版本
更可控。JSON格式输出，增加seed控制模型回复可复现
更新的知识。GPT-4 Trubo的知识更新至2023年4月
开放多模态能力，整合了文生图模型DALL·E 3和声音合成模型（TTS）以及语音识别模型Whisper V3等
开放 Fine-Tuning功能，支持在GPT-4基础上微调进行模型定制
输出速度更快，每分钟输出翻倍
GPTs
Assistant API

基于大模型（LLM）的Agent

目前，业界一般认为基于大模型的应用集中在两个方向上：RAG 和 Agent，无论哪一种应用，设计、实现和优化能够充分利用大模型(LLM)潜力的应用都需要大量的努力和专业知识。

Agent广义的定义

这里的Agent 指的是智能体，可以追溯到明斯基的《society of mind》一书。在那本书中，明斯基对Agent的定义有点抽象——“社会中某个个体经过协商后可求得问题的解,这个个体就是agent”。在计算机领域，agent是一种通过传感器感知其环境，并通过执行器作用于该环境的实体，因此，可以把实体定义为一种从感知序列到实体动作的映射。一般认为，Agent是指驻留在某一环境下，能持续自主地发挥作用，具备自主性、反应性、社会性、主动性等特征的计算实体。

智能，是Agent 与环境相互作用的涌现属性。

大模型中的Agent

在大模型领域，大模型替代了传统agent 中的规则引擎以及知识库，Agent提供了并寻求推理、观察、批评和验证的对话通道。特别是当配置了正确的提示和推理设置时，单个LLM就可以显示出广泛的功能，不同配置的Agent之间的对话可以帮助以模块化并以互补的方式将这些广泛的LLM功能结合起来。

开发人员可以轻松、快速地创建具有不同角色的Agent，例如，使用Agent来编写代码、执行代码、连接人工反馈、验证输出等。通过选择和配置内置功能的子集，Agent的后端也可以很容易地进行扩展，以允许更多的自定义行为。

基于大模型的常见Agent 和 Multi-Agent 系统

小结

开头我们讲了，Agent是一个目前大模型领域重要的应用方向，接下来我们也会再细分专题分别进行讨论。不在这里过多展开。

OpenAI推出的Assistants API

Assistant全名Assistant API，所以它本身不是一个APP，而是API工具箱，可以嵌入到APP中那种，所以Assistant API的应用层级应该是介于Fine-tuned Models和LLM-based APP之间，它看起来不是一个完全体应用，但也不需要像模型finetune一样需要掌握原理、数据集、方法等。

这里后面我们也单独开个专题来分享对于Assistants API的使用。

RAG

所谓RAG，检索增强生成（Retrieval Augmented Generation），简称 RAG，已经成为当前最火热的LLM应用方案。

通俗点说;就是通过自有垂域数据库检索相关信息，然后合并成为提示模板，给大模型生成漂亮的回答。

RAG的出现，是因为在大模型的广泛应用中，伴随着出现的一些问题，比如：

知识的局限性：模型自身的知识完全源于它的训练数据，而现有的主流大模型（ChatGPT、文心一言、通义千问…）的训练集基本都是构建于网络公开的数据，对于一些实时性的、非公开的或离线的数据是无法获取到的，这部分知识也就无从具备。
幻觉问题：所有的AI模型的底层原理都是基于数学概率，其模型输出实质上是一系列数值运算，大模型也不例外，所以它有时候会一本正经地胡说八道，尤其是在大模型自身不具备某一方面的知识或不擅长的场景。而这种幻觉问题的区分是比较困难的，因为它要求使用者自身具备相应领域的知识。
数据安全性：对于企业来说，数据安全至关重要，没有企业愿意承担数据泄露的风险，将自身的私域数据上传第三方平台进行训练。这也导致完全依赖通用大模型自身能力的应用方案不得不在数据安全和效果方面进行取舍。

而RAG是解决上述问题的一套有效方案。

RAG = 检索技术 + LLM 提示。例如，我们向 LLM 提问一个问题，RAG 从各种数据源检索相关的信息，并将检索到的信息和问题注入到 LLM 提示中，LLM 最后给出答案。

许多产品基于 RAG 构建，从基于 web 搜索引擎和 LLM 的问答服务到使用私有数据的chat应用程序。

总结

本文章讲了很多在大模型应用层的很多概念，有ChatGPT的功能：plugins、GPTs、Assistant API；也有大模型的应用：agent，RAG，提示词工程的应用，finetune，训练垂直领域大模型，自己造轮子等等。

在真正聚焦于我们找到自己感兴趣和合适的深入方向之前，我们要了解现在基于大模型的应用都有些什么，才能知道我们在什么场景下，能做些什么。

如何系统的去学习AI大模型LLM ？

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

四、AI大模型商业化落地方案

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
  - L1.4.1 知识大模型
  - L1.4.2 生产大模型
  - L1.4.3 模型工程方法论
  - L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
  - L2.1.1 OpenAI API接口
  - L2.1.2 Python接口接入
  - L2.1.3 BOT工具类框架
  - L2.1.4 代码示例
- L2.2 Prompt框架
  - L2.2.1 什么是Prompt
  - L2.2.2 Prompt框架应用现状
  - L2.2.3 基于GPTAS的Prompt框架
  - L2.2.4 Prompt框架与Thought
  - L2.2.5 Prompt框架与提示词
- L2.3 流水线工程
  - L2.3.1 流水线工程的概念
  - L2.3.2 流水线工程的优点
  - L2.3.3 流水线工程的应用
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
  - L3.1.1 Agent模型框架的设计理念
  - L3.1.2 Agent模型框架的核心组件
  - L3.1.3 Agent模型框架的实现细节
- L3.2 MetaGPT
  - L3.2.1 MetaGPT的基本概念
  - L3.2.2 MetaGPT的工作原理
  - L3.2.3 MetaGPT的应用场景
- L3.3 ChatGLM
  - L3.3.1 ChatGLM的特点
  - L3.3.2 ChatGLM的开发环境
  - L3.3.3 ChatGLM的使用示例
- L3.4 LLAMA
  - L3.4.1 LLAMA的特点
  - L3.4.2 LLAMA的开发环境
  - L3.4.3 LLAMA的使用示例
- L3.5 其他大模型介绍