Ask Optimal Questions: Aligning Large Language Models with Retriever’s Preference in Conversational

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/138949769

本文介绍了一种新的框架RETPO，用于优化大型语言模型以根据检索器的偏好重写搜索查询。通过收集检索性能反馈，训练模型与检索者偏好一致，从而提升会话搜索性能。实验表明，该方法在两个会话搜索基准上超越了包括GPT-3.5在内的现有基线。

本文是LLM系列文章，针对《Ask Optimal Questions: Aligning Large Language Models with
Retriever’s Preference in Conversational Search》的翻译。

摘要

与单轮检索任务不同，对话搜索需要在对话上下文中理解当前问题。重写然后检索的常见方法旨在去文本化问题，使现成的检索器能够自给自足，但由于结合检索结果信号的能力有限，大多数现有方法都会产生次优查询重写。为了克服这一限制，我们提出了一个新的框架RETPO（检索者偏好优化），该框架旨在优化语言模型（LM），以根据目标检索系统的偏好重新制定搜索查询。该过程首先提示大型LM生成各种潜在的重写，然后收集这些重写的检索性能作为检索器的首选项。在这个过程中，我们构建了一个名为RF COLLECTION的大规模数据集，其中包含检索者对12K个会话中超过410K次查询重写的反馈。此外，我们使用该数据集对较小的LM进行微调，以使其与检索者的偏好保持一致，作为反馈。由此产生的模型在最近的两个会话搜索基准上实现了最先进的性能，显著优于现有的基线，包括GPT-3.5。