【论文阅读】Corpus-Steered Query Expansion with Large Language Models-CSDN博客

本文链接：https://blog.csdn.net/qq_41502855/article/details/140965800

摘要

通过LLM做query expansion是一种有效提升检索准确率的方法，但是这种做法带来的挑战是，LLM并不具备垂直领域相关的知识，如果让LLM基于自身知识做query扩写，会导致幻觉或者引入过时的信息。这篇文章结合KEQE(Knowledge Empowered Query Expansion)和PRF(Pseudo Relevance Feedback)做了进一步优化，集二者之长，提出了一种新的定向query改写的方式。

本文的3个贡献点：

1、提出了CSQE(Corpus-Steered Query Expansion) 的query扩写方式，通过引入相关文档片段，弥补了完全依靠LLM实现扩写的不足

2、实验论证，仅CSQE+BM25，不需要额外的训练，效果胜过KEQE，包括微调后的sota模型Contriever-FT

3、进一步验证了BM25+CSQE，Contriver+CSQE的方法都能提升检索效果

实验

实验设置 - 不同场景和数据集

本文考虑了多种场景进行实验验证

数据集：

web search数据集：TREC DL19 (Craswell et al., 2020) and TREC DL20 (Craswell et al., 2021)
Low-Resource 数据集：six low-resource retrieval datasets from BEIR

Baseline设置：

前面提到CSQE是集PRF和KEQE之长，因此对比的基线选择的是PRF方法，和KEQE方法。

PRF：BM25 + RM3

KEQE：

(1)Contriever + Hyde: a KEQE method that employs hypothetical documents generated by LLMs to enhance unsupervised Contriever

(2)BM25+GPR: expansion method that applies PRF upon LLMk nowledge empowered hypothetical texts. GPR is a strong baseline that outperforms multiple SOTA PRF methods;

(3)BM25+Q2D/PRF (Jagerman et al., 2023), a method that given initially-retrieved documents generates hypothetical documents instead of extracting key sentences from them;

(4) BM25+KEQE.

以上实验的模型都不涉及训练，因此加了一组训练过的模型作为对照组

three supervised dense retrievers that are trained with over 500k human-labeled data of MS-MARCO for reference:

(1) DPR;

(2) ANCE, which involves sophisticated negative mining;

(3) ContrieverFT, which is the fine-tuned version of Contriever.

实验结果

Web Search Results

显而易见，BM25+CSQE打败了其他无训练，或者无训练的模型，包括sota模型Contriever-FT。

有一点比较有趣，使用的检索的query expansion方法，如检索无结果，则不进行query expand，但是Q2D/PRF这种方法，仍然需要LLM生成文档，这样生成的文档可能成为噪声。

We interestingly find a phenomenon that if LLMs find no relevant documents in the initially-retrieved set, they will yield no expansions. However, in the case of Q2D/PRF, LLMs still need to generate documents, potentially being adversely affected by the presence of noisy documents

Low-Resource Retrieval Results

CSQE相对于基线BM25依然提升不少，在很大程度上优于KEQE和Contriever-FT ，说明CSQE的泛化性很好。但在low-resource数据集上，CSQE表现和Q2D/PRF相当，论文解释认为二者的共性是基于检索的文档去做query扩展，说明了在low-resource场景下，基于语料库知识去做改写的重要性

CSQE remains competitive when compared to Q2D/PRF, verifying the importance of corpus knowledge in low-resource scenarios.

进一步分析

Analysis这个章节做了更加深入的验证，对以下3个问题进行了讨论

问题1: CSQE表现好有没有可能是因为LLM已经在验证集上训练过，即LLM本身具备领域知识，在扩写中起到作用的其实是KEQE？

CSQE on Queries that LLMs Lack Knowledge

为了验证LLM幻觉的降低（即基于检索结果的改写work）带来了性能上的提升，选择了NovelEval这个数据集进行验证，NovelEval是GPT-4发布后发布的包含query和passage的测试集，当前使用的LLM并未该数据集上训练过，因此KEQE只能产生幻觉。

结论是，KEQE没有带来提升，而CSQE有显著的效果提升。BM25+CSQE效果优于基于gpt -3.5 turbo的reranker，后者运行起来更耗时，进一步证实了CSQE的有效性。

Interestingly, we find KEQE is not able to bring improvements while CSQE leads to remarkable improvements. Notably, BM25+CSQE outperforms a GPT-3.5-Turbo-based reranker which is more timeconsuming to run, providing additional confirmation of the effectiveness of CSQE.

问题2: 前面的实验都是基于BM25 + CSQE， CSQE在dense retrival的效果如何？是否具有通用性？

CSQE on Dense Retrieval

Dense Retrival如何与CSQE融合，将每个expansion的embedding和原始query embedding做average。

Following Gao et al. (2022), we encode each query expansion separately into dense embeddings and average their embeddings with the original query embedding as the final embedding.

与CSQE+BM25的结论相似，CSQE能够显著改善Contriever。但比较有趣的是，在所有情况下，Contriever的表现都不如BM25（个人感觉是因为expansion提升了词命中率，但是这种embedding融合方式反而会导致语义偏移）。此外，Contriever+CSQE比使用500K人工标记数据(ContrieverFT)微调模型效果更好，进一步说明了CSQE的优越性。

问题3: 不同的LLM对CSQE的影响如何？

对比了从7B小模型到大模型GPT-3.5-Turbo对CSQE，KEQE的影响，结论是在各种scale的模型上，CSQE都优于KEQE，随着模型size增大，CSQE和KEQE的效果递增。

Case Study

文中提供了两个例子，很直观地看到KEQE提供了不真实的参考信息（红色），而CSQE的结果则更加可靠（绿色）

limitations

文中提到两点局限性：计算开销大（但免训练是个优势），依赖闭源模型。这个方法更适合一些对响应时长不太敏感的场景。

【论文阅读】Corpus-Steered Query Expansion with Large Language Models

摘要

相关方法

KEQE

PRF

CSQE

实验