论文阅读笔记《Foundations of GenIR》_genir生成式信息检索-CSDN博客

一些研究认为它是超线性的，称其为“突现能力”（emergent abilities）。Du等人发现，loss达到某一阈值时，指标会出现跃升。Power等人提出了“grokking”的概念，认为在充分计算资源支持下，模型可能会在某个点突然展现强大的泛化能力。
但也有研究认为这种突现能力不存在，训练充分的小模型往往优于训练不充分的大模型。Schaeffer 等人证明了突现能力是离散度量函数的伪影，而连续度量函数并不会这样。McKenzie 等人甚至发现模型扩展可能造成更差的指标。

关于特定突现能力存不存在，还在argue，~~欢迎加入战斗~~，欢迎进一步研究。

2. 推理成本考量

早期的扩展理论研究并没有考虑大模型推理时的成本问题，抛开成本说大模型更好是不现实的。

Fang等人：在考虑推理成本时，最优的模型规模会显著缩小
Mei等人：小模型可以通过更多的采样步骤来提升推理性能

近年来，很多研究定睛在给小模型大量训练上。如Llama和MiniCPM，它们的训练数据和训练步数远超扩展规律建议的范围。未来这些模型可能被应用在手机上，所以开发高性能小模型也很重要。

1.3 Training 训练

1.3.1 Training Objectives 训练目标

BERT时期使用Masked Language Modeling，随机遮住文本中15%的词语，模型需要预测这些被遮的词。如今，在需要双向注意力的任务上，BERT依然优于自回归模型。但其缺点是训练设置与下游任务之间存在差距，需要微调来适应不同应用，故零样本泛化能力有限。

因此，“下一个词预测”（next token prediction）方法应运而生。GPT-2的作者提出，所有的自然语言处理任务都可以重构为下一个词预测任务，通过在这个任务上进行训练，模型可以直接应用于任何下游任务，无需专门的微调。这个观点目前已经得到证实。

数学表示：

即根据先前词语的序列，预测下一个词 $x_{t+1}$ 出现的概率。

1.3.2 Training Stages 训练阶段

语言模型的训练通常分为三个阶段：预训练，有监督微调（SFT），基于人类反馈的强化学习（RLHF）

1. 预训练

最资源密集的阶段。用一个随机初始化的模型，在一个大规模的数据集上训练出鲁棒的语言能力。

几点挑战：

大模型从随机初始化开始训练，训练起来特别困难，损失值经常会出现剧烈波动，或出现模型无法收敛的问题。1.1节讨论了对这些不稳定性做出的架构改进，但依然没有很好的方案
计算资源需求很大。它通常涉及跨多台机器的并行处理，这可能导致计算资源的利用率较低，如Zeng等人报告了在预训练过程中频繁出现硬件故障
预训练数据的质量至关重要。因此要从大量数据中高效过滤掉低质量数据，通常采用神经评分模型，并根据网络的可信度进行筛选

2. 有监督微调

在指令-响应对（instruction-response pairs）上继续训练。

利用各种各样的nlp任务来增强数据集的多样性
需要熟练的标注团队来保证数据集质量
重视对安全相关的数据的标注，让模型能够拒绝不恰当的请求

3. 基于人类反馈的强化学习

根据人类反馈来校准模型。过程：①采样真实的人类prompt，模型生成多个respond；②由人类比较这些respond，基于这些人类偏好训练出奖励模型；③强化学习方法利用奖励模型指导语言模型更新。

然而，随着语言模型更新迭代，奖励模型适用性会越来越低，它也要跟着迭代。

近期也出现了一些不需要奖励模型的离线强化学习算法，例如DPO，但它们的表现不如在线学习。

1.3.3 Prompt Optimization

生成模型对prompt很敏感，好的prompt更能引导模型有效生成，因此优化prompt至关重要

三个方向：

设计prompt模板：设计人员常设计出符合人类思维过程的prompt模板，如链式思维（chain-of-thought）、树状思维（tree-of-thought）和自一致性（self-consistency）等
迭代优化prompt模板：类似于强化学习，根据模型生成的反馈持续优化prompt模板。由于prompt模板通常是离散的，研究人员常用大语言模型执行prompt更新
利用用户交互日志，来训练prompt重写模型：利用用户交互日志中的丰富反馈，来训练自动重写prompt的模型

多模态理解涉及模型处理来自多种模态的输入，并生成相关的响应。这个领域的挑战包括设计能够处理多模态输入的模型结构和制定适当的训练目标。

在多模态输入的对齐方面，主要有三种方法：

基于物体检测的输入：在图像中检测物体，提取它们的特征和相关的空间信息，然后将这些数据输入到语言模型中。方法有效，但物体检测所需的处理时间较长。
视觉编码：直接使用视觉编码器对图像进行编码，将图像转换为潜在向量表示，然后与模型进行整合。这种方法有时可能会导致细节的丢失。
基于patch块的输入：最有效的方法是将图像划分为多个小块（patch），通过简单的线性层进行转换，并直接将这些小块输入到模型中，这样就不需要复杂的视觉编码器。

在训练方法方面，主要有四种训练目标：

对比学习或图像-文本匹配：任务要求模型正确地将图像与相应的文本描述进行匹配，从而对齐图像和文本的表示
图像标注：模型基于图像生成描述，帮助模型理解视觉内容
细粒度图像理解：模型需要描述图像的特定区域或定位图像中的特定物体。这有助于增强模型对视觉元素的细致理解。
图像生成：任务要求模型重建模糊或损坏的图像像素

对于多模态生成，传统上，生成对抗网络（GAN）和自回归方法是主流生成方法，但它们计算开销大，效果也不好；近期，扩散模型（diffusion）成为新一代先进方法，通过向数据添加噪声，然后学习如何重建原始数据来生成新内容。

语言模型在多模态生成领域的应用日益增多，如在图像视频生成中，语言模型用于训练数据、重写prompt。

训练数据：现实世界中，很多视频或图像会带有不那么恰当的标题（标题党问题？），如果将标题直接作为视频图像的文本标注，会产生明显的噪声。我们可以首先训练一个多模态理解语言模型，用它重新标准视频图像，提高生成模型精确度。
重写prompt：生成模型对prompt非常敏感，所以需要专门训练一个语言模型重写prompt。有个挑战是，你很难去标注重写训练数据，因为有时候连开发人员都不知道什么是“好”的prompt。一个方案是，使用用户共享的有效prompt。另一个是，使用用户日志数据，其中有偏好和反馈信息。

好吧，事件原因，大概从这里开始借助机翻，但还是查看修改了一遍的

2 Information Synthesis 信息合成

⭐定义：利用生成式AI模型，尤其大语言模型，整合现有信息，生成基于事实的响应

它和信息生成的关键区别在于信息来源，信息生成依赖内部知识和信息，信息合成使用外部信息，模型更像一个信息的整合者而非创造者

人们认为在许多IA场景中，信息合成比信息生成更可靠，两点重要原因：

模型幻觉

指的是生成模型产生的respond并不基于事实或现有支撑材料的现象，这是很多生成模型的通病，人们普遍认为理论上无法阻止LLMs生成它们在训练过程中未见过的数据。

幻觉能力是语言模型甚至人类创造力的来源，但不适用于需要高精度、高可靠性和高可解释性的任务中，这里信息合成比生成更合适。

对外部知识的需求

许多场景下我们需要外部知识：当需要使用私有数据集时，当需要特定知识的垂直领域应用时，当任务涉及时效性数据时……这时通过预训练或有监督微调更新生成模型会很低效，且目前大多数生成模型的内部知识结构还是黑盒。

但我们可以直接将生成模型作为信息合成器，这样更加灵活、透明，且让我们更好控制系统输出。

2.1 Retrieval Augmented Generation 检索增强生成

RAG的基础知识大家看这位佬的blog就行😋：

RAG技术调研_advanced rag-CSDN博客

好吧坦白了，我是王婆（///）

在本文中是这样介绍的：

检索增强生成（RAG）指的是用外部数据集中检索到的数据来增强LLMs，或将多个检索结果与LLMs结合，应用于下游任务的过程。它其实二十多年前就在信息检索和nlp领域出现了，例如：基于检索句子的抽取式和生成式摘要；从检索到的文档中提取答案……但当时生成模型比较菜，RAG类似技术也不火。直到2022年底，ChatGPT爆火，RAG才跟着火起来。

2.1.1 Naive RAG 简单RAG

可以说这个名称代表一种范式：直接将检索系统检索到的文档或其他类型信息作为输入提供给生成模型，并希望模型基于这些信息生成更好的输出，或在没有特定任务目标的情况下生成更好的结果。

它也被称为“检索然后阅读”框架，早在LLMs出现之前就已经在阅读理解和文本摘要等任务中使用过。

详细过程：给定一个输入（可以是查询或特定任务指令），首先从外部语料库或先前的输入中检索相关信息（通常是实体、段落或文档）。然后，我们根据检索结果构造输入提示，并将其输入LLM。LLM将基于输入请求和检索到的信息生成最终响应。

这个范式已经在多个IA任务中证明了其有效性，例如问答系统。

由于LLMs只是作为黑盒工具来处理检索到的文档和输入请求，简单RAG的现有研究主要集中在开发更好的检索系统和为RAG设计prompt。检索系统的研究与信息检索（IR）中的研究高度相似，涉及索引构建、查询处理、第一阶段检索、重排序等，而这些东西在IR领域已经研究了五十多年。或许两者最显著的不同在于，近期关于简单RAG的研究更倾向于使用神经检索模型（如密集检索模型），而非传统的基于术语匹配的模型（如BM25）。一个重要的原因是，神经检索模型与LLMs有类似的理论背景和模型结构，这使得在现代RAG系统中实现联合优化成为可能，这一点详见2.1.3节。

2.1.2 Modular RAG 模块化RAG

与简单RAG方法相比，模块化RAG将检索系统视为支持LLM的功能模块。

现有研究主要集中于三个“W”：

When 何时检索

何时调用检索系统？

检索系统通过搜索外部语料库直接提供可靠且可解释的信息，从这个角度来看，调用的最佳时机是在LLM开始产生幻觉或错误的结果时，但识别这个时机很困难。

一种简单但有效的方法是每隔一定数量的生成标记（例如，每生成固定数量的标记或每生成一句话）就检索支持证据。
更先进的范式涉及知识边界分析和LLM预测不确定性的估计

💡从理论上讲，由于“何时检索”问题与幻觉检测研究有类似的动机和基础，现有关于LLM幻觉的研究可能为这个问题提供重要启示。值得关注的方向：更好的事实核查系统，以及如何基于外部行为和内部状态分析来表征LLM预测的置信度和不确定性。

What 检索什么

问题集中在分析LLM推理中的意图和信息需求。

🚶‍大多数现有的RAG研究简单地使用LLM推理的所有或局部上下文作为查询来检索系统，并假设这些上下文包含足够的信息来指导检索
🚲一个稍微好点的解决方案是使用LLM的低置信度词语（？原文是terms）来构造查询，因为低置信度词语表示LLM在生成响应时知识有限，因此需要更多的信息
🛵其实更具理论依据的方法是分析LLM的内部状态，并直接推断其信息需求
🚗Su等人：直接根据LLM的内部注意力分布来构造查询，在几个基准数据集上将RAG的性能提高了近20%😮
🚁（来吧读者大佬，飞机这条留给你发的paper）

Su等人的工作：

Where 从哪里检索

涉及如何识别RAG的正确信息源。该方向的研究与多源检索和工具学习的研究相关。

多源检索：为了回答不同请求，涉及从不同数据库或数据集合中获取信息的使用，LLM需要学习如何有效且高效地与每个信息源进行交互。

工具学习：研究聚焦于教LLM根据上下文使用工具，而检索系统通常被视为一种可以使用的工具。

在搜索引擎中，信息源通常根据其模态进行分类，通常为每种模态构建单独的系统（例如，Google的“图片”、“新闻”、“视频”标签）。虽然搜索引擎可能会将来自不同源的结果聚合到一个页面中，但最终显示给用户的搜索结果页面是个结果列表，用户可以选择想要查看的内容。但使用LLM时，用户通常要求LLM直接回答他们的问题，而不是列出几个候选结果，所以决定从哪里检索信息就成了LLM的任务。

💡现有的RAG文献大多针对单一检索集合（通常是文本语料库）进行研究，但显然单一集合无法满足LLM在不同任务中的需求。如何指导生成模型在多个来源中联合检索并整合信息，以满足下游任务的需求，是值得研究的问题。

2.1.3 Optimization of Retrieval and Generation 检索和生成的优化

RAG系统的优化通常涉及三个组成部分的评估，即检索器、生成器和增强方法。

检索器

在“一旦LLM接收到包含正确信息的段落或文档，它就能够直接生成正确的答案”的基本假设下，问题退化为退化为经典检索/排名系统的评估和优化，可以直接应用现有的基于密集检索和学习排序（LTR）的方法。

💡然而，RAG与传统检索任务之间依然存在差异，因为查询不再由用户发出。如何有效和高效地从LLM生成检索查询，是值得研究的问题。

生成器

如何在固定的检索结果基础上，提高LLM生成的鲁棒性和有效性？

LLM通常在处理长文本输入时表现较差，如何debug这个问题是当下热门研究方向
研究人员正在教LLM基于检索到的文档而不是其内部知识生成响应
无关结果和排名扰动等因素对生成器有害，Zhang等人提出在检索结果存在的情况下微调LLM（即检索增强微调），使LLM能够学习检索器引入的领域特定知识，增强其对检索过程中潜在干扰信息的鲁棒性

增强方法

现有的研究大多集中在将RAG系统作为一个整体进行联合优化。或者说RAG优化的损失函数应直接基于下游任务的性能指标构建。

但这个范式对RAG系统设计要求较高，目前很多方法中，检索器和生成器仅仅通过检索器找出的离散化结果相连接，很难使用联合优化算法。

当你已经拥有一个很好的检索器，且只对固定的LLM进行微调，倒是可以直接用强化学习方法。

💡如何将检索器的训练与生成器的自回归损失直接连接起来进行RAG优化，仍是一个未解决的问题。

2.1.4 Retrieval Planning and Composite Information Needs 检索规划和复合信息需求

本小节的inspiration感很强

💡生成模型的兴起为信息检索（IR）带来全新的机会。一个重要的机会是，将传统的搜索引擎结果页面（SERP）从简单列出结果候选项转变为一个真正的信息代理，能够处理具有复合信息需求的复杂任务。

目前人们通常会将检索目标拆解成多个单一的信息需求，逐一向搜索引擎或推荐系统发出查询，找到相应的答案，但我们现在希望让生成模型来做信息需求的分解和检索规划。

复杂的信息任务，如综述生成和专业文档编写，通常涉及多步规划和检索结果与响应生成之间的多轮互动。为此我们需要构建协作系统，深度连接检索、规划和生成过程。具体来说，需要进行面向生成的检索优化，以构建检索框架和模型接口，用于下游任务规划者和响应生成器；还需要设计面向检索的生成模型，能够分解信息需求，导航检索过程，从多个来源收集信息并生成最终结果。这些方向都有待研究。

2.2 Corpus Modeling and Understanding 语料库建模与理解

一类研究尝试用生成模型替代传统的检索系统，希望IR系统直接回答用户的信息需求，而不是显示一堆蓝色链接。

如Metzler等人讨论了几种“基于预训练语言模型，帮助IR系统直接回答用户信息需求”的范式，其直觉是使用基于神经网络的语言模型，将语料库的知识存储在参数空间中，并根据用户的查询直接从中提取相关答案或信息。以下讨论该方向衍生出的两个研究路径：生成检索和领域特定建模。

2.2.1 Generative Retrieval 生成式检索

可微索引

人们希望探索用大规模神经网络替代传统基于术语的索引（如倒排索引）在检索系统中的可能性。

对比：

密集检索模型：通过构建神经编码器，将文档映射到潜在语义空间，并基于文档向量构建明确的索引

生成式检索：在神经网络的参数空间中构建隐式的索引

DSI系统及其变种：直接对目标语料库进行训练，并将模型的参数视为“索引”

有研究认为，通过训练神经模型来编码整个语料库，文档和信息将隐式存储在模型的参数中，这种基于参数的索引比传统基于术语或向量的索引更有存储效率，且这一范式能统一多阶段检索流程，使索引能够直接为最终的检索目标进行训练。❗然而，由于将原始文档内容直接存储在有限的参数空间中，通常会导致显著的信息损失（这也反映在GR模型的检索性能不如预期）❗而且由于大模型的黑盒性，使用模型参数作为索引使整个系统变得不可控。

生成文档ID

GR模型通过自回归生成文档ID序列来检索文档。由于文档隐式存储在模型参数中，GR模型使用用户查询作为提示生成文档ID，这些ID通常由几个专用标记组成，专门用于唯一标识每个相关文档，大致可分为显式标记的ID和隐式标记的ID。

1. 显式ID

用一系列具有语义或数字意义的实际术语来标注每个文档（如基于关键词的文档ID和基于树的文档ID）。由于将文档的语义意义离散化为有限数量的标记，显式ID方法在文档建模方面的灵活性和能力比密集检索差，但可解释性强。

2. 隐式ID

其实是为突破显式ID的理论限制提出的，希望赋予GR模型与密集检索模型相同的建模能力。

理念是通过一系列潜在向量表示每个文档，防止丢失精细的语义信息。

密集检索也通过潜在向量表示每个文档，区别在于，GR使用的是训练过程中学习到并构建的codebook（怎么翻译啊🤯）中的一系列向量，密集检索直接从文档的原始内容为每个文档构建独立的向量。

Wu等人证明，带有隐式标记的GR模型在理论上等同于多向量的密集检索模型。另外，使用学习代码本的隐式标记向量在理论上与使用基于聚类的产品量化的密集检索系统相同。因此，带有隐式ID的GR方法和密集检索的性能上限在理论上是相同的。

还有研究认为，GR模型可能实现更低的延迟，因为不用即时在数百万文档中进行检索。❗但这有待商榷，因为大规模神经模型的推理通常比分布式系统中基于向量的检索更慢。❗在神经模型中维护信息也比在基于向量的数据库中更困难。

💡或许GR的未来潜力并不在于检索的有效性或效率，而是在可解释性等其他方面发挥作用。

2.2.2 Domain-specific Modeling 特定领域建模

关于LLMs是否能成为未来的搜索引擎，除了幻觉问题，重要挑战之一是，如何教会LLMs理解并使用外部语料库中的知识，而这些知识没包含在它们的初始训练过程中。

如果将每个外部语料库视为领域特定的数据集，那么这一研究方向本质上与构建领域特定LLMs相同。尽管RAG可以帮助LLMs快速适应新领域，但当外部语料库中的输入文档理解需要LLMs预先不具备的领域知识时，它们的表现仍然有限。

解决方案：

1. 让LLMs在目标领域语料库上进行继续预训练或监督微调

即将模型预训练阶段使用的类似训练策略应用于新的语料库。

现有研究：数据选择技术，分词器适配等

目前已经开发出了一些领域特定LLMs，如法律LLMs、金融LLMs。

drawbacks：①计算资源，②人们有时无法访问LLMs参数，③LLMs的内部知识结构和学习机制未知

对于③，知识编辑技术正在探索如何以低成本或不影响整体有效性的方式向LLMs注入知识。研究仍处于早期阶段，大多数现有方法仅适用于固定且有限的更新规则，和知识实体三元组。

2. 构建协作系统

可以为每个语料库构建单独的语言模型，并将这些模型与大型通用LLMs结合，形成一个协作系统。外部语料库上训练的小模型可作为领域知识的agent，而大型通用模型可以作为决策者，依据这些小模型的指导完成领域特定的任务。

研究表明该范式成本低，灵活性高，与RAG框架相比更能捕捉隐性领域知识，可能节省prompt中的tokens，（领域）数据保密性好。

3 Summary and Future Directions 总结与未来展望

干货部分, 基本是直接放原文了

生成模型通过新的方法论和系统设计彻底改变了IA领域，它带来两个新范式，即信息生成和信息合成。

信息生成指用户可以利用生成模型创建直接满足其信息需求的信息。在这一部分，我们深入探讨了生成模型的核心组成部分，包括模型架构（重点讨论Transformer及其改进）、扩展法则和训练方法。我们还探讨了继续扩展模型的规模的争议，prompt优化的重要性，以及这些模型如何扩展到多模态应用中，从而增强信息访问。

信息合成指的是利用LLMs在指令跟随和逻辑推理上的优势，将现有信息整合并生成基于事实的响应。我们详细讨论了这一方向的代表性技术之一——检索增强生成（RAG），并介绍了几种其他使用LLMs进行语料库建模和理解的方法。

总体而言，研究生成式AI模型如何重塑现代IA系统仍处于初期阶段。如上所述，现有关于信息生成和信息合成的研究要么集中在简单的信息任务（如写诗、回答事实性问题等）上，要么依赖于简单的系统设计（例如，将所有文档直接输入LLM作为prompt），显然这些方法无法充分利用现代检索和生成模型的能力。

未来几年值得探索的两个主要方向是：

1. 从简单任务到复杂任务

从简单的单一信息检索任务（例如事实性问答）转向更复杂的信息任务，这些任务过去被认为是“无法完成”的。例如，具有复合需求的检索（如“帮助我在马萨诸塞州安普斯特举办婚礼”）或需要规划和多轮检索与生成的信息任务（如“写一篇关于RAG的综述”）。这些任务过去需要人类专家来分解需求并进行检索、分析和结果整合，而如今借助生成式AI，机器自动完成这些任务成为可能。

2. mix检索和生成系统

探索更好的技术，沟通、协作甚至统一检索和生成系统，以实现信息访问。现有的工作大多将检索系统视为LLM的插件工具，而没有深入挖掘它们内部的连接和差异。例如，如何理解LLM的需求，如何将检索结果传递给LLM，以及如何优化生成器用于检索，优化检索器用于生成，都是重要但未被充分探讨的研究课题。每个课题背后都存在许多值得深入探讨的问题，包括新训练范式的设计、代理系统框架的开发、联合系统中离线训练与在线训练带来的潜在问题和偏差等。

生成式AI时代IR研究的未来在于，如何借助生成式AI模型拓展IR的范围，完成更复杂的信息任务，并开发出更加通用的系统架构，这些架构不仅仅是检索一份文档，而是执行更复杂的信息处理和规划任务。

💐辛苦啦，完结撒花～