LLM大模型技术总结：RAG+Agent智能体

IT猫仔

于 2025-05-12 14:23:28 发布

阅读量694

点赞数 21

文章标签：人工智能面试分布式职场和发展知识图谱

本文链接：https://blog.csdn.net/2301_82275412/article/details/147895995

版权

Prompt Engineering (提示词工程)

是什么

提示词(prompt)是人与大模型交互的重要媒介。因此，对提示词的掌握、使用、研究，便具有非常重大的意义。从人机交互出发，将大模型视为一种特殊的、很强大的计算设备，那么，提示词之于我们：“prompt是一种新型的自然用户界面”。

前排提示，文末有大模型AGI-CSDN独家资料包哦！

大多数的prompt具有以下的形式：由「指令」(instruction)和「内容」(content)两部分构成。其中，指令部分为我们需要大模型做的事，如“判断下列句子的情感”，而内容则为真正的句子，如“我今天很高兴”。注意，并不是所有的prompt都必须是这样的形式，如比较简短的prompt：“中国的首都在哪里”、“模仿百年孤独的开头写一段话”等这种言简意赅的prompt就只有指令、内容为空。

Prompt的不同分类

Prompt千变万化、不可名状，其主要由以下几种常见形式构成：

•Zero-shot prompt: 零样本的prompt。此为最常见的使用形式。之所以叫zero-shot，是因为我们直接用大模型做任务而不给其参考示例。这也被视为评测大模型能力的重要场景之一。

•Few-shot prompt: 与zero-shot相对，在与大模型交互时，在prompt中给出少量示例。

•Role prompt: 与大模型玩“角色扮演”游戏。让大模想象自己是某方面专家、因而获得更好的任务效果。

•Instruction prompt: 指令形式的prompt。

•Chain-of-thought prompt: 常见于推理任务中，通过让大模型“Let’s think step by step”来逐步解决较难的推理问题。

•Multimodal prompt: 多模态prompt。顾名思义，输入不再是单一模态的prompt，而是包含了众多模态的信息。如同时输入文本和图像与多模态大模型进行交互，现在的4o就能做到。

Prompt技巧（后续章节详解）

Prompt或许并不是人类与大模型进行交互的唯一和最好的方式，但一定是当下使用最多的方式。

RAG（Retrieval-Augmented Generation）

什么是RAG

RAG（Retrieval-Augmented Generation）技术是一种结合检索和生成的方法，用于提升大语言模型（LLM）在知识密集型任务中的性能。通过一个两阶段的过程提升LLMs的输出质量：

•检索（Retrieval）阶段，可以从各种数据源检索相关信息；

•生成（Generation）阶段，将检索到的文档与原始查询，形成提示模板，一起输入到生成模型中，产生最终的回答。

这种方法使模型拥有了利用实时和外部的知识库（非训练时使用的数据）的能力，提高了其在特定问题处理上的灵活性和准确性。

RAG解决什么问题

大型语言模型（LLM）虽然在多个领域展现出了卓越的性能，但在实际业务场景中仍面临一些挑战：

•知识的局限性： LLM的知识仅限于其训练数据，对于实时性、非公开或离线数据的获取存在困难。

•幻觉问题： 基于概率的输出可能导致模型生成不准确的信息。

•数据安全性： 企业对于数据泄露风险的担忧限制了对第三方平台的依赖。

为了解决这些问题，RAG作为一套有效的解决方案应运而生。

RAG工作原理

分为三个部分：索引、检索、生成。

1.索引 Indexing：处理外部知识源，将知识源分割为chunk，编码为向量，存储在向量数据库 Vetor-DataBase 中。

2.检索 Retrieval: 接受用户问题，将问题编码为向量，用这些向量去向量数据库中找到最相关的文档库 top-k chunks。

3.生成 Generation: 将检索到的文档与原始问题一起作为提示（Promot）输入到LLM中，生成回答。

RAG的优势

•知识丰富： RAG能够访问和利用大量的外部知识，提供更全面的回答。

•上下文相关性： 通过检索到的信息，RAG能够生成与用户查询高度相关的响应。

•灵活性： 适用于问答系统、内容创作等多种应用场景。

•减少幻觉： 结合实际数据，降低生成错误信息的风险。

RAG 的应用场景

•问答系统： RAG可以用于问答系统，其中检索模型可以根据用户的问题从大规模的文本数据库或者互联网中检索相关答案，生成模型则可以将检索到的信息转化为自然语言的回答。

•文本摘要： RAG可以用于文本摘要任务，其中检索模型可以检索与原文相关的摘要信息，生成模型则可以基于检索到的信息生成更准确和完整的摘要。

•对话系统： RAG可以应用于对话系统，其中检索模型可以检索与对话历史相关的信息，生成模型则可以基于检索到的信息生成更连贯和准确的回复。

•事实核查： RAG 可以帮助识别和生成基于证据的解释，以验证陈述的真实性。

•内容推荐： 在推荐系统中，RAG 可以根据用户的历史行为和偏好，检索并生成个性化的内容推荐。

RAG 是一种强大的技术，但它也有一些局限性，比如对检索系统性能的依赖，以及可能生成的答案质量受限于检索到的文档片段的质量。随着技术的进步，RAG 及其变体在处理复杂的认知任务方面展现出了巨大的潜力。

Agent智能体

为什么出现LLM Agent

近年来，人工智能（AI）和自然语言处理（NLP）技术迅猛发展，特别是大型语言模型（LLM）的出现，如 OpenAI 的 GPT 系列。这些模型展示了在各种任务中的卓越表现，从文本生成到对话系统。然而，尽管 LLM 拥有强大的处理和理解能力，它们的应用仍然需要进一步的优化和具体化。LLM Agent 的出现正是为了解决这些需求，实现更灵活、更智能的自动化任务处理。

1.复杂任务需求：传统的 AI 系统在处理复杂任务时往往需要大量的领域知识和手工调试。LLM Agent 通过预训练模型和少量的微调，可以更好地适应各种复杂任务。

2.人机交互提升：随着用户对于智能助手和对话系统的需求不断增加，LLM Agent 可以提供更自然、更流畅的交互体验。

3.自动化和效率：在企业和个人生活中，自动化任务需求逐渐增加。LLM Agent 能够通过自然语言指令执行多种任务，提升效率。

LLM Agent是什么

简单来说，LLM Agent是基于大型语言模型（如GPT-4）开发的智能代理。它不仅能理解和生成自然语言，还能执行一系列复杂的任务，如回答问题、生成文本、进行对话等。想象一下，你的计算机能够像人类一样理解你的问题并提供有用的答案。

LLM充当 Agent 大脑的角色，并由几个关键组件组成：规划（Planning）、记忆（Memory）、工具（Tool Use)

•规划

◦子目标拆解： 复杂任务不是一次性就能解决的，需要拆分成多个并行或串行的子任务来进行求解，任务规划的目标是找到一条最优的、能够解决问题的路线。

◦反思和完善： 智能体可以对过去的行为进行自我批评和自我反思，从错误中吸取教训，并针对未来的步骤进行完善，从而提高最终结果的质量。

•记忆

◦短期记忆： 所有的上下文学习（提示词工程）都是利用模型的短期记忆来学习。

◦长期记忆： 为 Agent 提供了长时间保留和回忆（无限）信息的能力，通常是通过利用外部向量存储和快速检索。

•工具

◦调用外部 API 来获取模型权重中缺失的额外信息（通常在预训练后很难更改），包括当前信息、代码执行能力、对专有信息源的访问等。

LLM Agent 的优势

1.高效性： LLM Agent 可以快速理解和处理自然语言指令，减少了任务处理的时间和复杂度。

2.灵活性：通过少量的微调，LLM Agent 可以适应不同的应用场景，从而具有很高的灵活性。

3.用户体验提升：得益于强大的自然语言处理能力，LLM Agent 能够提供更加自然和智能的交互体验，提升用户满意度。

4.可扩展性： LLM Agent 可以不断学习和扩展新的功能和知识，使得它在长期使用中表现越来越好。

LLM Agent 的应用

•自动化客服： LLM Agent可以提供24/7的客户服务，自动回答用户的查询，提高服务效率和用户满意度。

•内容创作： 从博客文章到营销文案，LLM Agent可以帮助内容创作者生成初稿或提供写作灵感。

•数据分析与摘要： LLM Agent可以从大量文本数据中提取关键信息，生成报告摘要，帮助决策者快速获取信息。

•教育和培训： 在教育领域，LLM Agent可以提供个性化的学习材料，辅助语言学习，或者作为智能辅导员。

•研究助手： 对于研究人员，LLM Agent可以帮助文献搜索、信息整理，甚至参与创造性的研究过程。

多模态

多模态定义

什么是多模态呢？简单来说，多模态就像是一个多才多艺的艺术家，能够同时使用多种艺术形式来创作作品。在AI领域，多模态模型能够同时处理和理解多种类型的数据，比如文字、图像、声音和视频。

为什么需要多模态

为什么我们需要能够处理多种数据类型的AI模型呢？原因很简单：我们的世界是多模态的。我们交流和感知世界不仅仅通过语言，还包括视觉、听觉等多种方式。多模态模型能够更全面地理解和模拟人类的交流和感知方式，使得AI能够更自然地与人类互动。

多模态的作用和特点

多模态模型就像是我们的大脑，能够同时处理和理解来自眼睛（视觉信息）、耳朵（听觉信息）和其他感官的数据。作用主要体现在以下几个方面：

1.信息整合：能够将不同类型的信息整合在一起，提高理解和分析的准确性。

2.增强表现力：通过结合多种数据源，模型可以表现出更强的感知和认知能力。

3.提高鲁棒性：多模态模型可以在某种类型数据缺失或不完整的情况下，依靠其他数据类型来弥补，从而提高整体性能。

与单一模态的模型相比，多模态模型具有以下特点：

1.多源数据处理：能够同时处理图像、文字、声音等多种数据类型。

2.更强的泛化能力：在不同的应用场景下表现更好，因为它们能够整合更多的信息。

多模态模型的应用案例

多模态模型在很多领域有着广泛的应用。以下是几个典型的例子：

1.医疗诊断：通过结合病人的影像数据（如X光片）、文字数据（病历）和生理数据（心电图），多模态模型可以提供更准确的诊断结果。

2.自动驾驶：多模态模型可以结合摄像头图像、雷达数据和GPS信息，帮助自动驾驶汽车更好地理解周围环境，提高安全性。

3.智能客服：通过整合语音识别、自然语言处理和情感分析，多模态模型可以提供更自然、更人性化的客服服务。

多模态大模型是人工智能领域的重要进展，它们通过整合多种类型的数据，显著提升了模型的表现力和鲁棒性。这不仅使得人工智能系统能够更好地理解复杂的现实世界，也为未来的技术发展带来了无限可能。无论是在医疗、交通还是日常生活中，多模态大模型正逐步改变我们的生活方式。

应用实例（简单列举）

斯坦福小镇

文生图图生图图生视频

LLM OS

上古卷轴破解

未来

随着AI技术的不断发现和进步，AI与人类的协同关系将不断演进和深化。我们期待着在未来，AI能够成为我们最得力的助手和伙伴，共同迎接更加智能和高效的未来。我们可以预见以下几个趋势：

•更高的自主性： AI将逐步从辅助工具发展为能够独立完成复杂任务的智能代理。这将解放人类的生产力，使我们能够专注于更具创造性和战略性的工作。

•更紧密的协同： AI与人类的协同方式将更加多样化和灵活化。通过改进人机交互界面和协同算法，AI将能够更好地理解人类的意图和需求，实现更高效的合作。

•广泛的应用场景： AI技术将渗透到各行各业，从医疗、教育到金融、制造业，AI将成为推动行业变革的重要力量。特别是在Agent模式下，AI将能够在更多领域中自主完成任务，带来前所未有的效率提升和创新机会。

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！
在这里插入图片描述

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：