看了那么久RAG还是调不明白？万字长文给你讲透RAG问题与优化策略！掌握Agent必备技能！AI学习你不能错过的RAG最全科普！

程序员笑武

于 2024-08-08 20:18:41 发布

阅读量333

点赞数 21

文章标签：人工智能学习 python 语言模型开源

本文链接：https://blog.csdn.net/m0_59164304/article/details/141035515

版权

随着通用大型语言模型如GPT系列和BERT等的迅速崛起，RAG作为自然语言处理技术的新星，凭借其创新的融合检索与生成机制，在处理知识密集型NLP任务方面展现出显著优势，极大地增强了模型在开放域问答、对话系统等场景下的回答质量和相关性。具体而言，RAG通过一个精妙设计的双阶段过程运作：首先，检索模块高效地从庞大的外部知识库中筛选并抓取与查询最为相关的背景信息;随后，这些精准的信息被馈送给生成模块，用以指导和丰富最终答案的生成过程，确保输出既符合语境又高度准确。

尽管RAG模型在提升生成内容的质量与可信度上取得了显著成效，但仍面临一系列挑战，限制了其潜力的完全发挥。首要问题在于生成模型固有的“幻觉”现象，即模型在缺乏充足信息支持时倾向于生成看似合理实则偏离事实的内容。此外，RAG的高性能背后是庞大的参数规模，这不仅导致计算资源需求巨大，还使得模型更新和维护的成本高昂，传统的预训练及微调策略因此显得捉襟见肘，难以高效实施。

为应对上述挑战，研究界正积极探寻和实践多种解决方案。一方面，通过引入更为先进的检索策略和优化算法，提高检索效率与精确度，减少不必要信息的干扰，从而降低生成内容的“幻觉”发生率。另一方面，探索轻量化模型架构和参数高效更新技术，力求在保持RAG模型强大生成能力的同时，减轻其对计算资源的依赖，使模型更易于训练和迭代。此外，结合持续学习和适应性增强技术，让RAG模型能够动态地与不断变化的外部环境交互，实时更新知识库，确保长期运行下的模型新鲜度和准确性。

为啥RAG不准

Retrieval-Augmented Generation (RAG) 方法来优化大语言模型(LLMs)的效果时，如果遇到输入检索不准确的问题，可能的原因有多种。下面列举了一些常见的原因及其可能的解决方案：

1. 索引数据质量不高：RAG 的性能很大程度上依赖于其检索系统的数据质量。如果索引中的文档或数据不准确、过时、或者与查询意图不匹配，会直接影响到检索的准确性。解决方法是定期更新和优化索引内容，确保数据的准确性和时效性。

2. 检索查询构建不佳：生成用于检索的查询可能没有充分捕获用户的真实意图或者与索引中的信息对齐。这可能是由于预处理步骤(如文本清洗、关键词提取等)不足，或者是生成查询的方式不够优化。可以通过改进查询生成算法，比如使用更复杂的自然语言处理技术来提升查询的质量。

3. 检索模型理解偏差：RAG 中的检索模型可能没有正确理解查询的语境，导致返回不相关的文档。这可能需要对检索模型进行微调，使用更多的上下文信息，或者调整模型参数以增强其理解能力。

4. 检索策略单一：仅依赖一种检索策略可能无法适应所有类型的查询。例如，对于某些查询，基于词频的检索可能更有效;而对于另一些，基于语义相似度的检索可能更佳。考虑结合多种检索策略或采用更灵活的检索框架可能会有所帮助。

5. 反馈循环缺失：RAG 系统没有有效地利用用户或专家的反馈来迭代优化检索结果。建立一个有效的反馈机制，根据用户的实际使用情况不断调整和优化检索系统，是提高准确性的关键。

6. 领域特定知识不足：如果RAG应用于特定领域，而索引或模型缺乏该领域的专业知识，可能导致检索不准确。针对特定领域，可以考虑引入更多领域内的专业数据来丰富索引，或者使用预训练时包含更多领域知识的语言模型。

7. 资源限制：计算资源或内存限制可能影响检索系统的效率和覆盖范围，从而影响检索准确性。优化资源分配，合理设计索引结构和检索算法，以平衡效率和准确性。

解决这些问题通常需要综合运用自然语言处理技术、机器学习方法以及对应用场景深入理解的不断迭代和优化过程。

RAG典型问题和应对策略

“内容缺失” - 建议增加相关文档和理解度量，以更好地展示知识。

“逻辑排名第高的文档” - 希望将符合上下文一致排名第高的局限性文档重新排名。

"未提供[未提取上下文]"的推荐数据 - 建议提供更详细的上下文和推荐数据，以提高推荐精度。

“未提供[未提取]模式” - 希望提供高模态推荐数据。

“自身程度不正确” - 希望提供高模态索引数据。

“不可靠[输出不完整]” - 建议提供可靠属性数据。

“数据提取可扩展性” - 希望提高数据提取流水线的可扩展性。

“结构化数据质量保证” - 建议改进链路质量保证。

“无法对线性数据进行质量保证” - 建议改进线性数据质量保证。

“从复杂PDF中提取数据” - 建议改进从相关文档中提取数据的方法。

“文档[PDF]解析” - 建议改进文档解析算法。

“回复重复(连串限制错误)” - 建议改进回复重复防止算法。

RAG的组成

RAG(Retrieval-Augmented Generation)技术可以涉及输入阶段和生成阶段两个环节，但其核心思想是结合检索和生成模型，以生成更准确和信息丰富的答案。先简单理解下：

输入阶段：在用户输入一个查询后，系统首先使用一个检索模型从一个大规模的文档集合或知识库中检索到相关的文档或信息。这些检索到的信息作为上下文被提供给生成模型(LLM大语言模型，例如GPT-3, GPT-4等)。

生成阶段：生成模型将用户的查询和检索到的相关信息作为输入，结合这些信息生成最终的回答。这样生成的回答不仅依赖于生成模型本身的语言生成能力，还利用了检索到的外部知识。

通常介绍RAG的文章都会强调以上两个阶段，概括为“检索-生成”链条，通过检索提供实时的、相关的外部知识，从而增强生成模型的回答质量和准确性。但是其实这个过程还有一个前置步骤，就是知识库索引的构建。

索引的建立，具体步骤包括数据索引(清理和提取原始数据，并将不同格式的文件转换成纯文本)、分块(将文本分割成更小的片段，以便语言模型处理)、嵌入和创建索引(通过语言模型将文本编码为向量，并以键值对形式存储原始语料块和嵌入，便于后续快速搜索)。

所以一个通用的，完整的RAG管道主要由索引、检索和生成这3个步骤组成：

1. 索引，文档被分割成块，编码成向量，并存储在向量数据库中;

2. 检索，根据语义相似性检索与问题最相关的前k个块;

3. 生成，将原问题和检索到的词块一起输入大语言模型中，生成最终答案。

不仅仅是RAG，所有大模型去理解知识的前提都是对知识库的索引，感兴趣的同学可以去看下之前的小纸条，本文我们先聚焦RAG相关的内容，接下来我们来重点看下检索和生成这两个RAG的关键环节

检索阶段 Retriever：

在检索阶段，根据用户输入将查询内容转换为向量，RAG系统会从预定的数据源(如数据库、文档库、知识库等)中检索相关信息，然后计算其与语料库中文档块向量的相似性，选出最相关的前 k 个文档块作为补充背景信息，作为生成模块的输入。这个过程可能使用各种信息检索算法，如BM25、TF-IDF或向量检索。

以向量检索为例，它会将文档和查询都转化为向量表示。在索引阶段，文档被编码成向量并存储在向量数据库中。当接收到用户的查询时，同样将其转化为向量，然后通过计算向量之间的相似度来检索相关文档。这种方法能够快速准确地找到与查询具有高相似度的文档。例如，在处理大量文本数据时，向量检索可以在短时间内筛选出最相关的部分，提高了信息检索的效率和准确性。

但在检索时可能会面临一些问题，比如语义歧义，像“苹果”一词可能指水果或科技公司，导致向量表示无法准确捕捉概念间的细微差别。

生成阶段 Generator：

将用户输入的问题与相关文档合并为一个新的提示信息，大语言模型根据提供的信息来回答问题。可以选择让模型依赖自身知识库或仅基于给定信息回答问题，若存在历史对话信息，也可融入提示信息以支持多轮对话。

在生成阶段，通常会使用预训练的 Transformer 模型，如 GPT 或 BERT 等。这些模型结合原始输入和检索到的外部信息来生成文本。模型会对输入的问题和检索到的相关信息进行编码和理解。然后，利用其强大的语言生成能力，根据这些输入生成连贯、有逻辑的回答。比如，当回答关于某个历史事件的问题时，模型会参考检索到的历史资料，生成详细且准确的描述。

RAG技术将检索和生成两种技术结合起来，旨在突破传统问答系统的局限。例如，早期的问答系统主要依赖预定义的规则和模板，以及简单的关键词匹配技术，知识图谱的出现带来了一定改进，但仍依赖固定的数据结构和知识库，限制了处理复杂问题的能力。

大语言模型出现后，显著提高了对自然语言的理解能力，但也存在“知识过期”和“细分领域的幻觉”等限制，而RAG通过将外部数据检索的相关信息输入大语言模型，能够增强答案生成的能力，处理更广泛、更复杂的问题。

RAG面临的问题

数据检索问题：

语义歧义：向量表示可能无法捕捉概念之间的细微差别，导致不相关的结果。

大小与方向问题：常见的余弦相似度度量重点关注向量方向，可能导致语义上遥远但方向相似的匹配。

粒度不匹配：查询向量代表的特定概念可能与数据集中更广泛的主题不匹配，导致检索到比预期更广泛的结果。

向量空间密度问题：高维空间中密切相关和不相关项之间的距离差异可能很小，从而导致看似不相关的结果被认为相关。

全局相似性与局部相似性：大多数向量搜索机制识别全局相似性，但有时可能对未捕获的本地或上下文相似之处感兴趣。

稀疏检索挑战：在庞大的数据集中，检索机制可能难以识别正确的段落，特别是当所需信息稀疏地分布在多个文档中时。

信息增强问题：

上下文的集成：若不能顺利地将检索到的段落上下文与当前生成任务集成，输出可能会脱节或缺乏连贯性。

冗余和重复：多个检索段落包含相似信息时，可能导致生成内容的重复。

排名和优先级：确定多个段落对于生成任务的重要性或相关性具有挑战性，增强过程需适当权衡每个段落的价值。

风格或语气不匹配：检索内容可能来自不同写作风格或语气的来源，需协调差异以确保输出的一致性。

过度依赖检索内容：生成模型可能过于依赖增强信息，导致输出重复检索内容，而不是增加价值或提供综合见解。

生成模型问题：例如大语言模型可能存在编造非事实数据的幻觉、训练数据包含错误信息、受限于上下文长度、生成的输出可能缺乏连贯性和一致性、存在冗长或冗余、过度概括、缺乏深度或洞察力、检索中的错误传播、风格不一致以及未能解决矛盾等问题。

为了优化 RAG 性能，出现了高级 RAG 和模块化 RAG 等改进方法。

高级 RAG 会在索引、向量模型优化、检索后处理等模块进行优化;

模块化 RAG 则在继承和发展以往范式的基础上，显示出更大的灵活性，可引入多个特定功能模块并替换现有模块，其过程不仅限于顺序检索和生成，还包括迭代和自适应检索等方法。

RAG的范式

RAG(Retrieval-Augmented Generation)作为一种融合检索与生成技术的方法，在自然语言处理领域展现出了强大的潜力，尤其在提高生成内容的质量、多样性和准确性方面。该技术通过结合外部知识库中的信息，增强了生成模型的能力。以下是RAG基础范式的几个重要分类，经过扩写和改写以增进理解：

基于查询的RAG(Query-based RAG)：这种范式的核心在于紧密联动用户的查询需求与知识检索过程。它首先利用用户提出的查询(query)在大量文档中进行精确检索，找出与查询最相关的片段或文档。随后，这些检索到的信息会被直接与原始查询拼接，形成一个综合的输入序列，供生成模型使用。这样，生成模型在创造输出时，就能直接借鉴和利用这些即时检索到的知识，确保生成内容的高相关性和实用性。此方法因其直观高效，已成为当前RAG应用的主流策略。

基于潜在表征的RAG(Representation-based RAG)：与直接拼接查询和文档内容不同，这一范式侧重于利用文档的深层次特征或向量表示。具体操作中，系统会先检索出与任务相关的文档，并进一步提取这些文档的语义向量表征。之后，在生成模型的内部生成流程中，这些文档的向量表征会被巧妙融入，作为辅助知识引导生成过程。这样的间接融入方式，使得模型能够更加细腻、隐式地利用检索到的知识，提升生成内容的丰富度和逻辑性。

基于logit的RAG(Logit-based RAG)：在生成模型的解码阶段，该方法创新性地结合了生成预测和检索结果，通过一种更细致的融合机制来优化输出。具体而言，当模型预测下一个token(语言单元)时，不仅考虑生成模型自身的预测概率(logit)，还会同时顾及检索模块反馈的相关信息。这种机制将检索模块和生成模块视作两个平行但相互作用的通道，它们各自计算出的logit值会被合并考量，从而在微观层面上实现生成决策的优化，提高了生成内容的准确度和适应性。

Speculative RAG：这是一种旨在提升效率与响应速度的策略，特别适用于资源受限或对生成速度有严格要求的场景。不同于传统生成模式，Speculative RAG通过让检索模块预先生成一系列候选回复，然后交由生成模型评估这些候选回复的质量和适用性。这一过程不仅减轻了生成模型的计算负担，还可能通过快速筛选找到合适的回复，实现了资源的有效节约和文本生成的加速，同时不失生成内容的质量控制。

RAG的不同范式各有千秋，分别从直接性、深度整合、精细调控以及效率优化等角度出发，共同推动着自然语言生成技术向着更智能、高效的方向发展。

RAG优势

RAG模型相较于传统的生成模型，具有以下几个显著的优势：

知识丰富性：通过引入检索模块，RAG能够在生成过程中参考大量的外部文档，极大地丰富了模型的知识基础，从而生成出更具深度和准确性的回答。

动态更新：检索模块使用的是预定义的知识库，这意味着RAG模型能够随时更新知识库内容，而无需重新训练生成模型。这样可以保证生成的答案始终基于最新的信息。

高效性：尽管RAG需要进行检索操作，但现代向量搜索技术和高效的生成模型使得整个过程仍然能够在较短时间内完成，保证了实用性。

多样性：RAG通过多文档检索和参考，可以生成多样性更高的回答，从而提升用户体验。

RAG的模块化

RAG存在一些局限，首先是检索质量问题，低精度检索导致文档与查询内容相关性不高，使得大模型无法获取足够的信息来合成准确的答案。此外，回应质量方面也存在问题，包括在缺乏足够上下文的情况下模型可能制造错误信息，以及生成的答案可能与查询问题不相关。更严重的是，有时候生成的回应可能包含有害或偏见性内容。为了解决这些挑战，高级RAG和模块RAG被提出。

高级 RAG采用了两个关键步骤，「Pre-Retrieval」(检索前)和「Post-Retrieval」(检索后)优化。

在检索前阶段，重点在于对待检索数据进行细致的准备和优化。比如细粒度的数据清洗，以提高数据的整体质量和相关性。

检索后阶段则专注于对从向量数据库检索到的数据进行处理。这涉及到对检索结果的重排序，根据相关性或时效性确保最相关的信息被优先处理。同时，过滤掉不相关或低质量的内容。

为了解决这一复杂性并提高系统的灵活性、效率和可扩展性，模块化RAG应运而生。模块化RAG的核心在于将各种功能解耦，将其作为独立的模块进行处理。具体来说，模块化RAG包括了「搜索」、「预测」、「记忆」、「评估」、「验证」和「对齐」等外层模块，以及内层的「检索」、「重排序」、「重写」和「阅读」等RAG核心过程。

在处理信息和响应用户查询的过程中，模块化RAG采用了多种信息处理流程。例如，传统的Navie RAG模式仅包括基本的「检索」和「阅读」步骤。而在更复杂的Advanced RAG模式中，包括了「重写」→「检索」→「重排序」→「阅读」的路径，这在提高检索和生成内容的质量方面尤为有效。

DSP(Demonstrate-Search-Predict)模式则专注于验证、搜索和预测阶段，这些模块和模式的组合赋予了模块化RAG极大的灵活性和适应性，使其成为一种强大且可扩展的工具，能够有效地应对各种信息处理挑战，并在多样化的应用场景中提供高质量的回答。

RAG 领域开源项目

伴随着大语言模型的火爆，除去一开始火爆的那批套壳应用之外，后来者居上的，并且保持了持久热度的，恐怕就是 rag 领域的开源项目了，这里罗列一下我个人知道的 rag 领域相关的开源项目。

dify(opens new window):一个开源的 LLM 应用开发平台。其直观的界面结合了 AI 工作流程、RAG 管道、代理功能、模型管理、可观察性功能等，让您可以快速从原型到生产。

FastGPT(opens new window)：一个基于 LLM 大语言模型的知识库问答系统，提供开箱即用的数据处理、模型调用等能力。同时可以通过 Flow 可视化进行工作流编排，从而实现复杂的问答场景!

anything-llm(opens new window)：一个全栈应用程序，使您能够将任何文档、资源或内容片段转换为任何法学硕士可以在聊天期间用作参考的上下文。该应用程序允许您选择要使用的法学硕士或矢量数据库，并支持多用户管理和权限。

ragflow(opens new window)：一款基于深度文档理解构建的开源 RAG(Retrieval-Augmented Generation)引擎。RAGFlow 可以为各种规模的企业及个人提供一套精简的 RAG 工作流程，结合大语言模型(LLM)针对用户各类不同的复杂格式数据提供可靠的问答以及有理有据的引用。

MaxKB(opens new window):基于 LLM 大语言模型的知识库问答系统。开箱即用，支持快速嵌入到第三方业务系统。

QAnything(opens new window):是致力于支持任意格式文件或数据库的本地知识库问答系统，可断网安装使用。您的任何格式的本地文件都可以往里扔，即可获得准确、快速、靠谱的问答体验。目前已支持格式: PDF(pdf)，Word(docx)，PPT(pptx)，XLS(xlsx)，Markdown(md)，电子邮件(eml)，TXT(txt)，图片(jpg，jpeg，png)，CSV(csv)，网页链接(html)

RAG流程梳理

RAG(Retrieval-Augmented Generation)技术是一种融合信息检索与生成式模型的方法，旨在通过检索相关性高的信息片段来增强生成内容的质量和准确性。以下是RAG应用的详细生成过程，经过整合、扩写和改写，以确保逻辑清晰且易于理解：

1. 知识文档的准备阶段

首先，系统从“Local Documents”即本地文档集中获取信息。这些文档可能包含各类文本数据，如研究报告、历史记录、政策文件等。它们被送入“Unstructured Loader”组件，该组件负责清洗数据、去除无关格式信息，确保文档内容适合后续处理。

2. 文本分割与向量化

随后，利用“Text Splitter”工具，这些文档被智能地切割成易于管理的小段，我们称之为“Text Chunks”。这样做不仅便于处理，也能在后续步骤中更精确地定位相关信息。切割完成后，一个关键步骤是运用“Embedding Model”对每一块文本进行编码，将其转换成高维向量空间中的一个点。这一过程抽象了文本的语义内容，使之能用数学方式表达和比较。

3. 建立向量数据库

所有生成的文本块向量及其关联的原文信息被集成到一个名为“VectorStore”的向量数据库中。这个数据库充当了一个庞大的知识仓库，可以高效地存储和检索信息。

4. 用户查询处理

当用户提出查询时，该查询首先通过同样的“Embedding Model”转换为“Query Vector”。这样，用户的提问就被转化为了可以与数据库中存储的文本块向量进行比较的形式。

5. 向量相似度匹配

接下来，系统在“VectorStore”中执行查询向量与所有存储向量的相似度匹配。通过“Vector Similarity”算法，找出与查询向量最接近的Top K个“Text Chunks”。这一过程确保了返回的信息与用户需求高度相关。

6. 构建提示并引导大模型

“Prompt Template”机制会基于检索到的Top K文本块，构造出一个或多个提示语句。这些提示语句精心设计，旨在引导后续的大型语言模型(如ChatGLM、GPT-3)理解查询上下文并准备生成答案。

7. 大模型生成答案

最后，大型语言模型接收这些提示语句，运用其强大的语言理解和生成能力，基于已有的知识片段和用户查询的具体情况，综合生成最终的“Answer”。这个答案既反映了原始文档的权威信息，又贴合了用户的特定查询需求，从而实现了精准且高质量的回答生成。

环节与优化策略

接下来我们来对每一步进行详细解释，以及在每个环节可以优化的策略

Local Documents知识文档

要建立一个高效的问答系统(RAG)，首先要整理好知识材料。现实中，这些知识可能存放在各种类型的文件里，像Word文档、TXT文本、CSV表格、Excel工作簿、PDF文件，乃至图片和视频。

我们的第一步是借助专门的工具，比如PDF转文字的软件或是多媒体分析技术(比如光学字符识别，OCR)，把这些多样化的信息转换成大语言模型能读懂的纯文本。举例来说，PDF文件里的文字可以用PDF提取工具抓出来;图片和视频里的文字，则可以通过OCR技术辨认并转成文本。

那在这一阶段可以对RAG进行优化的方式也就可想而知了-数据质量提升与清洗

一个顶尖的RAG系统需要高质量、精确的原始信息。为此，有两个关键点要把握：

提升读取与转换质量：确保从CSV等格式中提取信息时，不仅转成文本，还要保持原表格结构不变。比如要用特定符号区分不同的数据项。

深入的数据净化，涵盖几个方面：

基础文本整理：统一文本格式，去掉奇怪的符号和无关内容，避免重复资料。

明确术语含义：统一类似“LLM”、“大型语言模型”这些表述，让系统能一致理解。

文档归类：根据主题合理组织文档，如果连人都难以快速找到对应答案的文档，机器更难做到。

丰富语言资源：通过加入同义词、解释性词汇，甚至其他语言版本来扩大语言素材的广度。

用户互动反馈：根据实际使用者的反馈持续改进数据库，确认信息的准确性。

时效性管理：对于常更新的内容，设置机制让旧信息得以更新或标记为过时，保证信息新鲜。

简而言之，就是要细心整理并维护好知识库，确保它既准确又实用，这样才能让问答系统发挥最佳效果。

Text Spliter文档切片

为了应对文档过长可能导致的问题，这里的一个关键步骤就是-文档切片。在构建RAG知识库时，文档切片是指将庞大复杂的文档拆解为小块，便于管理和操作。这一过程将长文档分成若干小段，便于快速处理和查找信息，不仅减轻了处理系统的负担，还提升了信息检索的精确度。

之所以需要对用户文档进行切分，是因为向量表征的语义比较含糊，不仅一篇文章可以表征为一个向量，一个单词也可以表征为一个向量，这就导致文字块跟向量对应的粒度很难控制：粒度过粗，用一条向量对应一大段话，对这些文字的细节很难表征;粒度过细，那么一大段文字会对应一堆向量，而每个向量又仅仅代表几个词的语义，因此无法简单根据相似度来找到符合语义的向量。因此，需要对文档进行“恰当”的切分。

文档切片的常见方式有：

主题切片：依据文档不同主题分开。
结构切片：跟随文档章节划分。
任务切片：按文档中的各项任务或步骤划分。
时间切片：根据时间顺序切割内容。
关系切片：基于文档内实体间关系进行切分。

在RAG系统里，文档被切成文本块进行向量表示，目标是在保持意义连贯的前提下减少无关信息，优化查询匹配。块太大会混入不相关信息，降低准确度;太小则可能失去重要背景，影响回复质量。

因此，对于这一阶段来说，合理的分块策略至关重要，保证信息既完整又相关，每块内容应独立成义，便于人和机器理解。

分块方法考量：

固定大小分块：简单直接，设定每块字数，块间轻微重叠保持连贯，简单易用且不需要很多计算资源。

内容导向分块：根据内容特征(如标点、自然语言处理工具)来分。比如NLTK或者spaCy库提供的句子分割功能。

递归分块：逐步应用规则细分，灵活性高，但需细致规则设定。大多数情况下推荐的方法，其通过重复地应用分块规则来递归地分解文本。比如在langchain中会通过段落换行符(`\n\n`)进行分割，如果切分出来的块大小不超过阈值，则被保留，对于超过标准的块，使用单换行符(`\n`)再次分割。这种方法还可以灵活地调整块的大小，对于文本中的密集信息部分，就采用更细的分割来捕捉细节，而对于信息较少的部分，就使用更大的块。

多级分块：文档按多种尺寸分割并存储。把同一文档进行从大到小所有尺寸的分割，再将不同大小的分块全部存进向量数据库，并保存每个分块的上下级关系，进行递归搜索，虽全面但占用空间大。

特殊结构分块：针对特定格式(如Markdown, Latex, 代码)的定制分割。

确定分块大小时，需考虑嵌入模型的最佳输入尺寸、文档性质及查询特性。如OpenAI的text-embedding-ada-002模型偏好256或512字符的块。文章或书籍适用较大块以保全上下文，而社交媒体内容适合小块。查询简短则小块更佳，复杂查询则反之。实践中，初始可尝试128字符作为分块大小基准，根据实际情况调整优化。

Embedding嵌入模型的选择

嵌入模型的主要工作是把文本变成向量形式。日常语言里充满了可能引起误解的词语和对意思帮助不大的辅助词，而向量表现得更紧凑、准确，能抓住句子的前后联系和中心意思。这样一来，我们仅需计算向量间的差别，就能找出意思相近的句子了。

采用向量这种形式是因为向量可以提供语义召回，语义召回简单理解，就是一种不需要文字完全相同，但是可以分析并检索出意图、含义相同的内容。用户只要提问，最终能按照相似度高低返回最接近的答案而无需考虑问题是否真的有哪些关键词匹配到了文档。即使没有匹配，也依然可以根据语义相似度返回答案。

举个例子，假如我们要比较“我喜欢张学友”和“张学友唱歌很好听”这两句话，嵌入模型会先把它们转化为向量。之后，通过衡量这些向量的相似度，我们就能知道两句话的相关性有多高。但这样的嵌入模型是如何培养出来的呢?这里，我们可以参考一个经典案例——Google开发的Word2Vec模型，来深入了解它的训练步骤。

Word2Vec技术中有两种训练方式，这里我们通过一个简化的例子——CBOW模型来解释。想象一下，我们有一句话：“The cat sat on the mat”，CBOW的目标很简单：根据周围的词(“the”, “cat”, “on”, “the”, “mat”)猜出中间的词"sat"。训练步骤分四步：

词汇转数字：首先，我们将周围词变成所谓的one-hot向量，就是一个有很多0、只有一个1的列表，用来唯一标识词汇表中的每一个词。比如，“the”可以表示为[1, 0, 0, 0, 0]。

生成词向量：接着，用这些one-hot向量乘以一个大矩阵W(这个矩阵的每一列对应词汇表中一个词的向量表示)，这样每个词就有了自己的意义向量。然后，把这些向量加在一起取平均，得到的就是整个上下文的综合向量e。

预测中心词：再把这个综合向量e乘以另一个矩阵W’，并通过SoftMax函数转换，得到一个概率分布，告诉我们模型认为每个词作为中心词的可能性。

学习与调整：最后，通过比较模型预测的结果和实际的中心词，不断调整矩阵W和W’，直到模型能够较好地预测中心词。这样，综合向量e就能很好地反映句子的上下文信息了。

Word2Vec虽好，但它产生的词向量是静态的，一旦训练完成，词的意义就被固定住了，不能适应像“光盘”这样在不同情境下含义变化的词。而像BERT这样的新模型，利用自注意力机制，能动态理解词义，让同一词语在不同上下文中拥有不同的向量表示，提高了理解的准确性。

对于特定领域应用，有时候会对模型进行微调，但这需要高质量的数据和资源，风险也大。为此，推荐查看Hugging Face的MTEB排行榜(https://huggingface.co/spaces/mteb/leaderboard)，它提供了模型性能对比，帮助做出更好的选择，并注意检查模型是否支持所需语言。

除了Word2Vec，还有其他高级的嵌入模型如BERT和GPT系列，下面表格简单的进行了对比。嵌入模型是连接用户查询和知识库的关键，它们通过更复杂的网络结构捕捉更深层次的语义关系，确保了系统回答的准确性和相关性。

VectorStore向量数据库

向量数据库时一种专门设计用于存储和检索向量数据的数据库系统，用来高效存储和查找向量数据。在RAG系统中，通过嵌入模型生成的所有向量都会被存储在这样的数据库中。它能很好地处理大量向量信息，让我们快速找到和用户查询最匹配的内容。

我们再来从向量数据库的角度，看看有耐哪些对RAG流程优化的策略：

元数据的使用

存储向量时，部分数据库容许附加元数据(非向量形式的信息，我觉得也可以理解为原本的数据)，如同给数据加上标签。这样做提高了搜索速度，比如通过日期这样的元数据，可以按时间先后排序邮件。在构建邮件查询应用时，最近的邮件往往关联性更强，虽然仅凭嵌入模型难以直接判断相似度，但加上日期元数据，就能优先展示新邮件，让搜索结果更贴近用户需求。其他元数据如章节标题、关键词也能增强搜索精度和用户体验。

Vector Similarity相似度检索

在RAG(Retrieval-Augmented Generation)系统框架下，用户提出的查询请求会被转换成向量形式，这一过程旨在寻找最相关的匹配项。值得注意的是，查询语句的表达方式直接影响到最终搜索输出的质量。面对不尽如人意的搜索反馈，采取以下策略对查询问题进行优化，能够显著增强信息召回的效能，来看下这个阶段的查询转换策略：

a) 整合历史对话的创新表达：即便两个问题在语言表层看似相近，它们在向量空间的表示却可能相去甚远。利用大型语言模型(LLM)的力量，我们能对问题进行新颖的改写尝试。特别是在连续对话场景下，用户的即时提问可能隐含了前文的某些关键信息，将这些上下文细节与当前问题一并输入至LLM，有助于生成更加贴合背景、更加精确的问题表述。

b) 假设文档嵌入技术(HyDE)的应用：HyDE策略的精髓在于，首先利用LLM在缺乏额外信息输入的情况下构建一个假设性的回答。尽管此回答可能包含非事实信息，但它蕴含了模型基于问题理解所推测的相关内容及潜在的文档结构，为后续在数据库中寻找类似文档提供了有价值的线索。

c) 采用退后提示策略：当初始查询因过于复杂或导致检索结果过于宽泛时，构造一个抽象层级更高的、更为概括的“退后”问题与原问题并行检索显得尤为重要。比如，若原问题具体为“桌子君在某段时间内就读于哪所学校”，相应的退后问题可聚焦于更广泛的“桌子君的教育经历”。这样的策略往往能够引导系统发现更加直接且全面的答案来源。

d) 多查询检索策略：针对那些复杂度高、涉及多维度信息的需求，通过LLM生成多样化的搜索查询，即实施多路召回(Multi Query Retrieval)，是一种高效手段。它允许我们从不同角度拆分原始问题为若干子问题，每一路查询都致力于捕捉问题的一个侧面，综合各路结果以实现信息的全面覆盖和深度挖掘。

借助这些策略，RAG系统不仅能够更加细腻和智能地解析用户复杂多变的查询意图，还能在提高检索速度的同时，确保信息的准确性和全面性，从而大大增强了用户体验和搜索任务的完成质量。

检索参数优化

多层次索引的优势

当元数据不足以区分不同上下文时，多级索引登场。它将大数据分门别类，建立多层结构，便于管理和检索。这意味着有多个针对性的索引来处理不同查询，比如有的专攻摘要查询，有的处理直接答案查询，还有考虑时间因素的。这样，系统能灵活选择最适合的索引回应查询，加速并提升搜索质量。配合多级路由，查询根据其特点(如复杂性、所需信息类型等)被路由至一个或多个特定索引，确保每个查询都能被导向最合适的索引，这不仅提升了处理效率，还优化了资源使用，确保了精准匹配。

在精心构建了查询问题后，我们迈入了向量数据库探索的关键阶段：检索过程。为了最大化检索效果，针对不同向量数据库的特点，我们可以灵活调整一系列检索参数，以实现查询意图与数据之间的高效对接。以下是几个核心参数及其优化策略的详细说明：

a) 稠密与稀疏搜索权重调谐

稠密搜索，作为向量空间搜索的核心机制，依赖于向量间的相似度计算来识别匹配项。然而，在面对特定情境限制或希望捕捉文本中特定关键词时，稀疏搜索成为补充利器。特别是采用如最佳匹配25(BM25)这样的高级算法，该算法依据单词在文档中的出现频次动态调整权重——高频词汇权重下降，罕见词汇因潜在的指示意义获得提升，从而实现了对文本语境的深度挖掘。通过向量数据库提供的配置，用户可自定义稠密与稀疏搜索结果对最终评分的贡献比例(例如，权重比0.6意味着40%的评分源自稀疏搜索成果，剩余60%归功于稠密搜索)，以此融合两种策略的优势，实现检索的全面性和精确性。

b) 结果集规模(Top-K)的精妙平衡

确定检索返回的结果数量(通常以Top-K表示)是调优的重要一环。一个恰到好处的结果集不仅能够广泛覆盖用户的查询需求，为解答多层次、复杂问题提供丰富的背景信息，还避免了信息冗余导致的理解难度增加和处理效率下降。实践中，需要根据应用场景的特性细心权衡：过多的结果可能引发信息过载，分散用户的注意力，同时加重系统的计算负担;反之，过少则可能遗漏关键信息。因此，合理设定Top-K值，既能确保回答的全面性，又维持了高效与精准的平衡。

c) 相似度度量方法的选择智慧

选择合适的相似度度量方法是优化检索质量的另一把钥匙。常见的度量技术涵盖了欧式距离、Jaccard距离及广受欢迎的余弦相似度。其中，余弦相似度因其仅关注向量的方向而非长度，成为了文本语义匹配的优选工具，尤其擅长跨越不同文本长度比较其主题相关性。尽管如此，选择何种度量还需考虑所用嵌入模型的特性和支持范围。不同模型对度量方法的适用性各异，深入理解并遵循模型推荐的最佳实践，是确保相似度计算准确无误的关键步骤。

综上所述，通过精细调整检索参数，如搜索权重配比、结果集大小及相似度计算方法，我们不仅能够增强查询响应的针对性与全面性，还能有效提升系统的效率与用户体验，为复杂信息检索任务提供强有力的支持。

检索算法优化

尽管索引能初步筛选数据，但如何从海量向量中找到“足够像”的匹配项是个挑战。由于数据规模和复杂性，追求完美匹配不现实也不经济也不是客户的本意，尤其是在追求语义相似度而非绝对匹配的场景，如推荐系统。用户更在乎推荐是否符合兴趣范围，而非每个推荐都完美精准，完全一致的。这就是最近邻搜索(ANN)的应用背景，旨在找寻“高度相似”的结果，提供高效检索策略。

下面我们会来介绍一些常见的向量搜索算法以便大家在具体使用场景中进行取舍。

聚类

就像在线购物时我们先选类别再浏览商品，聚类算法帮助缩小搜索范围。例如，K-means算法可以把向量分成多个组，查询时，我们先定位最近的组，再在此组内精细搜索。尽管这种方法可能不会每次都精确命中，比如查询项实际上更接近另一组内的某个点，但它显著减少了搜索空间，提高了效率。如下图，查询距离黄色簇的中心点更近，但实际上距离查询向量最近的，即最相似的点在紫色类。

为了解决这个问题，可以尝试一些方法，比如增多分类群组并探索多个集合。但要注意，提升查询精确度的同时，必然会消耗更多时间和资源。这就是所谓的“质量与效率的取舍”，我们要在这二者间寻得最佳平衡点，或者依据具体场景的需求来调整。不同的解决算法，也会带来不一样的平衡效果。

位置敏感哈希法

另一种有效缩减检索范围的策略。传统哈希法追求每个输入都能得到独一无二的输出，并极力避免输出重复。而位置敏感哈希则反其道行之，它旨在提高输出值“撞车”的概率。这样的“碰撞”，实质上帮助我们将相似的数据归为一类，即同一个“篮子”。更重要的是，这种哈希函数设计上要确保：空间上挨得近的数据点，有更大机会落入同一篮子。如此一来，查询时，仅需获取查询对象的哈希值，定位到那个“篮子”，并在里面进行搜索即可，大大提高了效率。

量化乘积

在先前的讨论中，我们探索了两种策略，旨在通过牺牲一定的搜索精确度来加速搜索过程。然而，除了追求更快的查询速度，内存消耗问题同样是制约大规模数据处理能力的重大障碍。实际情况中，单项数据通常携带成千上万的特征维度，且数据集的规模动辄上亿条记录。鉴于每条数据关联着真实世界的有用信息，直接削减数据量以缓解内存压力显然不可行。因此，我们不得不考虑缩小单个数据项的存储规模，而这正是量化乘积技术大显身手之处。

类比于图像处理领域中广泛采用的有损压缩手段，如将像素块进行合并以减少存储需求，我们也可以在保持数据集整体结构和特征的前提下，对高维数据实施类似的“压缩”。具体而言，通过聚类分析，我们可以识别出数据中的自然群体或“簇”，并用每个簇的中心点作为该簇所有数据点的代表。尽管这一过程会导致原始向量的详尽信息有所丢失，但得益于簇中心与簇内成员的高度相关性，加之可以通过增加簇的数量来精细化模型、减小信息损耗，我们实际上能相当程度地保留数据的原始特征轮廓。

此策略的妙处在于，它不仅极大地压缩了数据体积——通过将复杂的多维度向量简化为其所属簇的中心点，并进一步将这些中心点编码为单一数值，实现了从多维到一维的高效存储转换，还构建了一个“码本”来记载每个编码值与其对应的中心向量的实际数值。这样一来，当需要调用特定向量时，我们仅需查阅码本，利用编码值迅速定位并还原出接近原始的向量表示。诚然，经此处理后的向量已非原始形态，但基于上述聚类方法的精妙设计，这种变形在多数应用场合下是可接受的，因为它在大幅降低内存占用的同时，依然能较好地维护数据的核心信息内容。

总结而言，量化乘积是一种巧妙的降维和压缩技术，它通过将高维向量映射到其所在簇的中心点，并将这些中心点编码存储，有效解决了大数据环境下内存消耗的棘手问题，同时保证了数据的实用性与检索效率。

然而，你或许会察觉到，码本的引入虽然旨在优化处理过程，却也不可避免地带来了额外的资源消耗问题。特别是在现实应用的复杂情境下，随着数据维度的急剧增加，所谓的“维度灾难”现象使得数据点在高维空间中的分布愈发稀疏。为了精准捕捉这些稀疏分布中的细微信息，我们不得不大幅度增加聚类的数量——例如，在一个128维的特征空间里，理论上可能需要多达2的64次方个聚类中心来有效量化信息，这无疑对存储资源提出了极其严苛的要求，以至于码本所需的内存容量甚至可能超过量化原本旨在节省的存储空间，形成了一个反直觉的困境。

为破解这一难题，一种行之有效的策略是将高维向量拆解为多个较低维度的片段，随后在这些低维子空间中独立执行量化过程。以128维向量为例，可以将其切分为8个16维的子向量，每部分在自己的维度空间内实施量化，并构建专属的子码本。这样一来，每个16维的子空间仅需256个聚类中心便能取得较好的量化效果，不仅显著降低了单个子码本的规模，即使所有子码本汇总后的总内存占用也依然维持在了一个相对合理的水平。这一策略成功地将原本指数级增长的码本大小问题转换成了线性累加的模式，极大地缓解了内存压力。

更进一步，我们还能将上述提高处理速度与减少内存占用的方法相结合，即通过乘积量化技术，同时在保持高效运算速度的同时，实现对内存使用的最优化。这样的多管齐下，不仅确保了算法执行的高效性，也兼顾了资源利用的经济性，是应对高维数据量化挑战的一个综合性解决方案。

分层导航微观宇宙

从终端用户的角度出发，内存消耗这一技术细节或许并非他们首要关心的问题。用户的核心诉求聚焦于应用程序的实际效能，即迅速而准确地解答他们的疑问。正是基于这样的用户需求，分层导航小世界(Hierarchical NSW)算法应运而生，它巧妙地以适度增加内存使用为代价，换取了查询响应速度的显著提升及结果精确度的飞跃。该算法的灵感，部分源自社交网络中著名的“六度分离”理论——寓意在这个星球上的任意两个人，通过不超过六个中间人就能建立起联系。换言之，通过六步以内的间接关系，理论上你可以结识世界上任何一位陌生人。

在此基础上，我们将数据空间中的各个元素想象成一个个向量点，而查询过程则转化为在这个点构成的网络中寻找最匹配项的旅程。具体操作时，我们会选定一个起始点entry point，作为探索的出发点。随后，依据算法逻辑，我们会识别出与entry point最为邻近且与查询目标向量最为相似的下一个点(图中右边的点)，并朝向这个点前进。这一过程循环往复，每到达一个新的节点，都会重复进行相似性评估，逐步向最符合查询条件的点逼近。直至抵达某一点，途中的nearest neighbor，发现其周围再无其他点比它更贴近查询目标时，我们的搜寻之旅便宣告成功，点nearest neighbor即是所求的最优解，即与查询向量最为相似的数据点。通过这种逐级导航的方式，分层导航小世界算法不仅高效地解决了搜索问题，还为用户带来了直观且高质量的信息检索体验。

高级检索策略

在探讨向量数据库检索技术的进阶应用时，我们迈入了一个核心而复杂的领域，这一环节对于整个系统性能的提升至关重要，其丰富性和深度足以构成一篇详尽的专题论述。为了保持论述的精炼性，我们将聚焦于几种广泛应用或新兴的策略概览。

上下文压缩：信息精炼的艺术

面对文档块过大的挑战，上下文压缩策略应运而生。该策略旨在通过语言模型(LLM)的辅助，智能地筛选和压缩文档内容，确保仅传递与查询最相关的部分。这不仅减少了LLM处理的负担，也显著提升了响应的准确性和效率，避免了无关信息对输出质量的稀释。

句子窗口搜索：构建完整语境的桥梁

反之，文档块过小可能导致上下文信息缺失，影响理解深度。句子窗口搜索策略通过捕捉查询匹配的文档块及其周边内容，形成一个信息丰富的“上下文窗口”，供LLM分析。此举增强了模型对文档全貌的把握，提升了答案的相关性和完整性。

父文档搜索：层次化信息组织的智慧

父文档搜索法是另一种有效应对策略，通过将文档先划分为较大规模的主文档，再细分为子文档，形成双层结构。查询首先与子文档匹配，随后将其归属的主文档纳入考量，这一过程促进了对文档宏观结构与细节的双重理解，为LLM提供了更为丰富的决策依据。

自动合并：深化理解的策略升级

自动合并策略是对父文档搜索的进一步深化，采用多层次的树状结构对文档进行精细切分。通过识别与查询高度匹配的底层块，并基于这些匹配向上聚合至父节点，该策略能够高效识别和提取最具相关性的文档片段，为用户提供更为集中且高质量的信息反馈。

多向量检索：全方位覆盖的检索创新

多向量检索技术通过为同一文档创建多维度的向量表示，涵盖了不同粒度的分块、摘要乃至潜在查询，极大地丰富了检索的维度。这种多角度的索引策略使系统能够更全面地评估文档与查询的相关性，特别是在处理复杂查询时，能够提供更为精准和全面的答案集合。

多代理检索：协同工作的智慧集成

多代理检索概念引入了一种智能化的协作模式，它整合了多种优化策略，如子问题分解、多级索引等，通过不同代理的分工合作，实现查询处理的高效与深入。每个代理专注于其擅长的领域，如子问题代理负责问题拆分，文档代理执行深度检索，最终由排名代理整合信息并提交给LLM，实现了策略间的互补与优化。

Self-RAG：自我反思的检索增强框架

Self-RAG作为一种创新的检索与生成框架，通过引入检索评分与反思评分机制，革新了传统RAG框架。这一过程包括智能判断是否需要检索、生成针对检索结果的答案，并对答案进行反思评分以验证相关性，从而确保输出的高质量。Self-RAG的引入，标志着在信息检索领域的又一次重要飞跃，通过深度自我评估与优化，推动了答案生成的精准度和实用性。

检索重排模型(Semantic Re-ranking Approach)

在完成了对语义搜索机制的精细调优之后，我们成功地从浩瀚的信息海洋中捞取了与查询最为语义相似的文档集。然而，这里潜藏了一个不容忽视的问题：语义上的高度相似性是否天然等同于高度的相关性呢?实际情况表明，这种等价关系并不总是成立。试想，当用户的查询是“最近公映的科幻电影推荐”时，搜索反馈中却可能出现“科幻电影发展史”的相关内容。尽管后者确实在主题上与科幻电影紧密相连，但它并未直接触及用户想要了解的最新影片信息。

正是为了解决上述难题，重排模型应运而生，它扮演着结果优化器的角色。该模型通过实施二次筛选和精细化排序，针对初次检索获得的结果集进行深度的相关性复审。这一复审流程往往依托于先进的深度学习技术，比如Cohere模型，它们具备强大的语境理解能力，能综合考量多种因素：用户的实际查询目的、词汇的多维度含义、过往的用户行为模式，以及查询发生的特定背景环境。

假设用户询问“最近发布的烹饪书籍推荐”，在初步搜索过程中，系统依据关键词可能会抓取到包含烹饪书籍的旧有评测、烹饪技巧的文章、新书发布的信息等内容。接下来，在结果优化阶段，算法会进一步分析这些信息，确保将与用户需求最贴近的内容，即最近发布的烹饪书籍的评价、简介或者直接的推荐清单，置于搜索结果的前列。而那些关于烹饪书籍的通用知识或不太关联的新书资讯，则会被安排在靠后的位置。通过这种结果优化模型，系统的检索结果不仅关联度更高，也更加精确，从而更有效地响应了用户的查询意图。

Prompt Template提示词

大型语言模型，特别是它们的解码器组件，其核心功能在于根据先前接收到的信息预测接下来最有可能出现的词语。这一机制强调了构建精准且引导性强的提示词或问题框架的重要性，因为这些初始输入直接左右着模型预测下一个词的倾向性和准确性。简而言之，精心设计的提示如同为模型铺设了一条清晰的思考路径，能够显著影响模型处理各类问题的态度与反馈形式。

认识到这一点，我们自然也能想到要如何进行优化：通过调整提示词的表述和结构，我们可以积极地引导模型适应不同类型的询问，优化其回应的质量与适宜性。举例来说，如果我们的目标是让模型在回答时保持客观、精确，并专注于手头的任务，那么明确告知模型其角色与任务范畴是至关重要的。比如，采用这样的提示语设定：“你是一位专业的智能助理，职责在于提供精确无误的信息服务，旨在高效解决用户的疑问。在交流过程中，请保持态度友好而简洁，严格依据当前对话的上下文以及检索到的数据来作答，无需也不应掺杂个人见解或未经证实的信息。”

然而，灵活性同样重要。在某些应用场景下，我们可能希望模型的回应能融合一定的情感色彩或基于其广泛知识库的深入理解。这时，提示词就需要相应调整，鼓励模型在确保信息准确性的基础上，适度展现个性或深度分析。

此外，采用“少量样本”(few-shot)策略，即在提示词中嵌入几个示范性的问答实例，是一种极为有效的技巧。这样做不仅为模型提供了学习模板，展示了如何恰当地利用检索到的知识来形成答案，还进一步增强了模型在特定场景中的实用价值和响应的针对性。这些实例犹如教学案例，帮助模型更好地把握回答的方向和风格，从而输出既精确又贴合情境的内容，减少了误解和非事实性陈述的风险，提升了用户交互的满意度和效率。

为了更好地匹配数据，输入的提示词(prompt)应符合以下要求：

明确性：提示词应明确表达查询的意图，避免模糊不清的表述。

相关性：提示词应与目标数据紧密相关，包含关键词或短语，以提高检索的准确性。

简洁性：尽管可以输入较长的文本，但简洁的提示词有助于快速准确地引导模型理解查询需求。

避免歧义：尽量避免使用可能引起多种解释的词汇或表达。

适应性：根据模型的训练数据和优化方向，选择适合的提示词，例如，如果模型在特定领域表现更好，则使用该领域的专业术语。

利用上下文：如果可能，提供一些上下文信息，帮助模型更好地理解查询的具体情境。

遵循指令：如果模型支持指令式提示(如某些模型可以根据指令生成不同的嵌入)，则按照模型的要求使用相应的指令。

大语言模型LLM

在构建高效的信息处理和交互系统的过程中，最终阶段聚焦于利用大语言模型(Large Language Models, LLM)来生成精准且有价值的回应。LLM作为这一流程的核心驱动力，承担着将提取的信息转换为自然、贴切答案的重任。如同在选择嵌入模型时一样，针对LLM的选择也需要深思熟虑，以匹配特定的应用场景和需求。这包括但不限于考虑模型的开放性与专属定制性、运行推理时的成本效率、以及模型处理长篇幅上下文的能力。多样化的选项允许开发者根据项目的具体要求，灵活决定是采用开源的公共模型，还是投资于性能更优的私有模型。

为了简化大语言模型在 Retrieval-Augmented Generation (RAG) 系统中的集成与部署，一系列先进的开发框架应运而生，LlamaIndex 和 LangChain 便是其中的佼佼者。这些框架不仅封装了复杂的底层逻辑，提供简洁直观的API接口，还内置了强大的调试工具。这意味着开发者可以轻松定义回调函数来监控模型的内部工作流程，比如跟踪哪些上下文片段被模型采纳，或是检索结果的具体来源文档。这种透明度对于优化模型性能、确保回答质量和可追溯性至关重要。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

程序员笑武

关注

21
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
看了那么久RAG还是调不明白？万字长文给你讲透RAG问题与优化策略！掌握Agent必备技能！AI学习你不能错过的RAG最全科普！

随着通用大型语言模型如GPT系列和BERT等的迅速崛起，RAG作为自然语言处理技术的新星，凭借其创新的融合检索与生成机制，在处理知识密集型NLP任务方面展现出显著优势，极大地增强了模型在开放域问答、对话系统等场景下的回答质量和相关性。具体而言，RAG通过一个精妙设计的双阶段过程运作：首先，检索模块高效地从庞大的外部知识库中筛选并抓取与查询最为相关的背景信息;随后，这些精准的信息被馈送给生成模块，用以指导和丰富最终答案的生成过程，确保输出既符合语境又高度准确。
复制链接

扫一扫