【LLM大模型】LlamaIndex 高层次概念

本文链接：https://blog.csdn.net/pythonhy/article/details/141226436

本篇内容为您快速介绍在构建基于大型语言模型（LLM）的应用程序时会频繁遇到的一些核心概念。

LLM 是基于海量数据训练而成，但并未涵盖您的具体数据。增强检索生成（Retrieval-Augmented Generation, RAG）通过将您的数据添加至 LLM 已有的数据集中，解决了这一问题。在本文档中，您将频繁看到对 RAG 的引用。

在 RAG 中，您的数据被加载并为查询做好准备，即“索引”。用户查询作用于索引，筛选出与查询最为相关的数据上下文。随后，该上下文连同查询一同传递给 LLM，并附带一个提示（prompt），LLM 根据这些信息提供响应。

即使您正在构建的是聊天机器人或智能代理，也应掌握 RAG 技术，以便将数据引入您的应用程序。

RAG 包含五个关键阶段，这些阶段也将成为您构建的任何大型应用程序的组成部分。它们分别是：

加载（Loading） ：指将您的数据从原始存储位置（如文本文件、PDF、网站、数据库或 API）导入到处理流程中。LlamaHub 提供了数百种连接器供您选择。
索引（Indexing） ：这意味着创建一种数据结构，允许对数据进行查询。对于 LLM 而言，这几乎总是意味着生成向量嵌入（vector embeddings），即数据意义的数值表示，同时采用多种元数据策略，便于准确找到与上下文相关联的数据。
存储（Storing） ：一旦数据被索引，通常需要存储索引以及其它元数据，以避免重复索引。
查询（Querying） ：对于任何索引策略，都有多种方式利用 LLM 和 LlamaIndex 数据结构进行查询，包括子查询、多步骤查询和混合策略。
评估（Evaluation） ：评估是管道中的关键步骤，用于衡量其相对于其他策略的有效性或在进行更改后的效果。评估提供了查询响应的准确度、忠实度和速度等客观指标。

在每个阶段中，您还会遇到一些与其中步骤相关的术语。

节点（Nodes）与文档（Documents） ：文档是任何数据源（如 PDF、API 输出或数据库检索数据）的容器。节点是 LlamaIndex 中数据的基本单元，代表源文档中的“数据块”。节点包含与所属文档及其它节点相关的元数据。
连接器（Connectors） ：数据连接器（通常称为 Reader）负责从不同数据源和数据格式中摄取数据，将其转化为文档和节点。

索引（Indexes） ：在摄取数据后，LlamaIndex 将帮助您将数据组织成易于检索的结构。这通常涉及生成向量嵌入，存储在名为向量存储（vector store）的专用数据库中。索引还可存储关于数据的各种元数据。
嵌入（Embeddings） ：LLM 生成数据的数值表示，即嵌入。当过滤数据以寻找相关项时，LlamaIndex 将查询转换为嵌入，而向量存储则查找与查询嵌入数值上相似的数据。

检索器（Retrievers） ：检索器定义了在接收到查询时如何高效地从索引中检索相关上下文。您的检索策略对所检索数据的相关性和检索效率至关重要。
路由器（Routers） ：路由器决定从知识库中检索相关上下文时使用哪个检索器。具体而言，RouterRetriever 类负责选择一个或多个候选检索器执行查询。它们使用选择器根据每个候选者的元数据和查询选择最佳选项。
节点后处理器（Node Postprocessors） ：节点后处理器接收一组已检索节点，对其应用变换、过滤或重新排序逻辑。
响应合成器（Response Synthesizers） ：响应合成器使用用户查询和给定的一组检索到的文本片段，通过 LLM 生成响应。

基于数据的 LLM 应用程序有无数种用例，但大致可分为以下三类：

查询引擎（Query Engines） ：查询引擎是一条端到端的流水线，使您能够针对数据提出问题。它接收自然语言查询，并返回响应，同时提供传递给 LLM 的参考上下文。
聊天引擎（Chat Engines） ：聊天引擎是一条端到端的流水线，支持您与数据进行对话（多次来回交流而非单次问与答）。
智能代理（Agents） ：智能代理是由 LLM 驱动的自动化决策者，通过一组工具与外界互动。代理可以根据任务需求采取任意数量的步骤完成指定任务，动态决定最佳行动方案，而不是遵循预设步骤。这种灵活性使其能应对更为复杂的任务。

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述