论文来自 Carnegie Mellon University,原文链接:https://arxiv.org/abs/2305.06983
RAG 是一种缓解 LLM 幻觉问题的方法,已有的一些方法可以通过 single-time 检索增强得到比纯参数LLM更好的返回。特别是对于短形式的知识密集型生成任务,如事实问答(QA),这类问题的信息需求在用户的输入中是明确的,仅根据输入检索一次相关知识就足够了。
与短格式生成相比,长格式生成提出了复杂的信息需求,这些需求并不总是可以非常容易从单次的输入中得到。与人类在创建论文、散文或书籍等内容时逐渐收集信息的方式类似,使用 LLM 进行长格式生成需要在整个生成过程中收集多个知识片段。
在这种情况下,作者提出 FLARE 模型,该模型迭代生成临时下一句,如果其中包含低概率标记,则将其用作检索相关文档的查询,并重新生成下一句直到语句结束。
Active RAG 原理简介
在第 t(t≥1)步时,基于用户输入 x 和先一步生成的输出来生成检查查询语句,公式如下:
其中 qry() 指的的是查询公式函数。在开始时(t=1),用户输入用作初始查询语句。
对于给定检索文档,LM 会用下面的公式不断生成答案,直到触发下一次检索或到达末尾:
其中 yt 代表在当前步骤 t 生成的 tokens,LM 的输入是检索文档,用户输入和上一次生成结果。
FLARE:Forward-Looking Active REtrieval Augmented Generation
假设条件(作者认为):