【论文阅读】Corpus-Steered Query Expansion with Large Language Models

摘要

通过LLM做query expansion是一种有效提升检索准确率的方法,但是这种做法带来的挑战是,LLM并不具备垂直领域相关的知识,如果让LLM基于自身知识做query扩写,会导致幻觉或者引入过时的信息。这篇文章结合KEQE(Knowledge Empowered Query Expansion)和PRF(Pseudo Relevance Feedback)做了进一步优化,集二者之长,提出了一种新的定向query改写的方式。

本文的3个贡献点:

1、提出了CSQE(Corpus-Steered Query Expansion) 的query扩写方式,通过引入相关文档片段,弥补了完全依靠LLM实现扩写的不足

2、实验论证,仅CSQE+BM25,不需要额外的训练,效果胜过KEQE,包括微调后的sota模型Contriever-FT

3、进一步验证了BM25+CSQE,Contriver+CSQE的方法都能提升检索效果

相关方法

KEQE

比如Hyde,直接通过LLM+query->pseudo passage,通过query和pseudo passage进行检索

PRF

文中并没有详细介绍,可以通过这篇博客了解细节:

A Pseudo-relevance feedback framework combining relevance matching and semantic matching for information retrieval

CSQE

步骤1: 首先通过bm25 -> top-k个文档

步骤2: query + top-k文档 + LLM(prompt如下图所示) ->key sentences集合 

步骤3: Expanded query为query,集合中的每个句子,以及KEQE结果的拼接

We repeat the initial query q a number of times equal to the number of expansions during concatenation.

[query] * len(response_list_keqe) + response_list_keqe + [extract_key_sentences(response_csqe) for response_csqe in response_list_csqe]

步骤4:用Expanded query + bm25 ->最终检索结果

完整流程图如下:

实验

实验设置 - 不同场景和数据集

本文考虑了多种场景进行实验验证

数据集:

  • web search数据集:TREC DL19 (Craswell et al., 2020) and TREC DL20 (Craswell et al., 2021)
  • Low-Resource 数据集:six low-resource retrieval datasets from BEIR

Baseline设置:

前面提到CSQE是集PRF和KEQE之长,因此对比的基线选择的是PRF方法,和KEQE方法。

PRF:BM25 + RM3

KEQE:

(1)Contriever + Hyde: a KEQE method that employs hypothetical documents generated by LLMs to enhance unsupervised Contriever

(2)BM25+GPR: expansion method that applies PRF upon LLMk nowledge empowered hypothetical texts. GPR is a strong baseline that outperforms multiple SOTA PRF methods;

(3)BM25+Q2D/PRF (Jagerman et al., 2023), a method that given initially-retrieved documents generates hypothetical documents instead of extracting key sentences from them;

(4) BM25+KEQE.

以上实验的模型都不涉及训练,因此加了一组训练过的模型作为对照组

three supervised dense retrievers that are trained with over 500k human-labeled data of MS-MARCO for reference:

(1) DPR;

(2) ANCE, which involves sophisticated negative mining;

(3) ContrieverFT, which is the fine-tuned version of Contriever. 

实验结果 

Web Search Results

显而易见,BM25+CSQE打败了其他无训练,或者无训练的模型,包括sota模型Contriever-FT。

有一点比较有趣,使用的检索的query expansion方法,如检索无结果,则不进行query expand, 但是Q2D/PRF这种方法,仍然需要LLM生成文档,这样生成的文档可能成为噪声。

We interestingly find a phenomenon that if LLMs find no relevant documents in the initially-retrieved set, they will yield no expansions. However, in the case of Q2D/PRF, LLMs still need to generate documents, potentially being adversely affected by the presence of noisy documents

Low-Resource Retrieval Results 

CSQE相对于基线BM25依然提升不少,在很大程度上优于KEQE和Contriever-FT ,说明CSQE的泛化性很好。但在low-resource数据集上,CSQE表现和Q2D/PRF相当,论文解释认为二者的共性是基于检索的文档去做query扩展,说明了在low-resource场景下,基于语料库知识去做改写的重要性

CSQE remains competitive when compared to Q2D/PRF, verifying the importance of corpus knowledge in low-resource scenarios.

 

进一步分析

Analysis这个章节做了更加深入的验证,对以下3个问题进行了讨论

问题1: CSQE表现好有没有可能是因为LLM已经在验证集上训练过,即LLM本身具备领域知识,在扩写中起到作用的其实是KEQE?

CSQE on Queries that LLMs Lack Knowledge 

为了验证LLM幻觉的降低(即基于检索结果的改写work)带来了性能上的提升,选择了NovelEval这个数据集进行验证,NovelEval是GPT-4发布后发布的包含query和passage的测试集,当前使用的LLM并未该数据集上训练过,因此KEQE只能产生幻觉。

结论是,KEQE没有带来提升,而CSQE有显著的效果提升。BM25+CSQE效果优于基于gpt -3.5 turbo的reranker,后者运行起来更耗时,进一步证实了CSQE的有效性。

Interestingly, we find KEQE is not able to bring improvements while CSQE leads to remarkable improvements. Notably, BM25+CSQE outperforms a GPT-3.5-Turbo-based reranker which is more timeconsuming to run, providing additional confirmation of the effectiveness of CSQE.

 问题2: 前面的实验都是基于BM25 + CSQE, CSQE在dense retrival的效果如何?是否具有通用性?

CSQE on Dense Retrieval

Dense Retrival如何与CSQE融合,将每个expansion的embedding和原始query embedding做average。

Following Gao et al. (2022), we encode each query expansion separately into dense embeddings and average their embeddings with the original query embedding as the final embedding.

与CSQE+BM25的结论相似,CSQE能够显著改善Contriever。但比较有趣的是,在所有情况下,Contriever的表现都不如BM25(个人感觉是因为expansion提升了词命中率,但是这种embedding融合方式反而会导致语义偏移)。此外,Contriever+CSQE比使用500K人工标记数据(ContrieverFT)微调模型效果更好,进一步说明了CSQE的优越性。 

问题3: 不同的LLM对CSQE的影响如何? 

 对比了从7B小模型到大模型GPT-3.5-Turbo对CSQE,KEQE的影响,结论是在各种scale的模型上,CSQE都优于KEQE,随着模型size增大,CSQE和KEQE的效果递增。

 

Case Study

文中提供了两个例子,很直观地看到KEQE提供了不真实的参考信息(红色),而CSQE的结果则更加可靠(绿色)

limitations

文中提到两点局限性:计算开销大(但免训练是个优势),依赖闭源模型。这个方法更适合一些对响应时长不太敏感的场景。

  • 14
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Sogou文本分类语料库小集(sogou-text-classification-corpus-mini.zip)是一个包含9304条文本的数据集,每个文本包含了文本内容、所属类别、分类标签和对应的关键词。该数据集可以用于文本分类的训练和测试,是自然语言处理领域的常用数据集之一。 该数据集按照新闻、娱乐和汽车三个分类进行标注,其中新闻类包含了6191篇文本,娱乐类包含了1809篇文本,汽车类包含了1304篇文本。每篇文本都对应一个分类标签,可以帮助研究人员进行文本分类算法的研究和比较。 同时,每篇文本都包含了关键词信息,这些关键词可以用于识别文本中的重要信息,帮助算法更好地理解文本内容。因此,该数据集在文本分类和文本语义理解的研究中非常有价值。 总之,Sogou文本分类语料库小集是一个非常有用的自然语言处理数据集,可以被广泛应用于文本分类和文本语义理解领域的研究和应用。 ### 回答2: sogou-text-classification-corpus-mini.zip 是一个文本分类数据集,包含了数千个中文新闻文本的标注。这个数据集整理自搜狗搜索引擎的新闻分类服务中收集的数据,可以用于研究文本分类算法的效果以及构建中文文本分类模型。 文本分类是自然语言处理中的一个重要任务,它是把一个文本分到预先定义好的若干个类别中的过程。文本分类广泛应用于舆情分析、信息过滤、垃圾邮件过滤、广告定向等领域。 sogou-text-classification-corpus-mini.zip 数据集包含5个分类标签,分别是“体育”、“娱乐”、“家居”、“房产”和“教育”。每个类别下面有约1000条新闻文章,每篇文章有其对应的标题以及正文内容。 使用这个数据集进行文本分类任务需要先将中文文本预处理成数字向量,然后使用机器学习或深度学习算法进行分类。常用的文本表示方法有词袋模型、TF-IDF等,机器学习算法包括朴素贝叶斯、支持向量机等,深度学习算法包括卷积神经网络、循环神经网络等。 总的来说,sogou-text-classification-corpus-mini.zip 是一个适合用于学习中文文本分类的数据集,可以帮助研究者和工程师更好地理解中文文本分类任务的本质和实现方式。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值