文献阅读：Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agent

最新推荐文章于 2025-04-25 15:24:01 发布

Espresso Macchiato

最新推荐文章于 2025-04-25 15:24:01 发布

阅读量1.1k

点赞数 3

分类专栏：文献阅读文章标签： chatgpt 语言模型人工智能 LLM LLM应用

本文链接：https://blog.csdn.net/codename_cys/article/details/132526242

版权

文献阅读专栏收录该内容

55 篇文章

订阅专栏

文献阅读：Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agent

文献链接：https://arxiv.org/abs/2304.09542

1. 文章摘要

这篇文章的核心工作主要是考察了一下GPT模型在排序任务当中的效果，发现通过合适的方法（文中给出的滑动窗口 + 排序），可以使得GPT模型在文本排序上的效果超过现在的有监督模型的SOTA结果。

更甚者，使用GPT模型的标注结果进行模型蒸馏，获得的蒸馏模型的效果在某些任务当中依然可以超过当前的SOTA结果。

文中给出了整体的实验结果图如下：
在这里插入图片描述

由此，文章展示了GPT模型在语义理解上的强大能力以及另一种可行的应用途径。

下面，我们来具体看一下这篇文章的具体内容。

2. 方法介绍

这篇文章的方法的核心其实就是如何将GPT模型的结果适配到排序任务当中，或者更一般地说，如何将LLM模型应用在排序任务当中。

文中给出了三种可行的方法，他们可以用下面三张图来分别展示：
在这里插入图片描述

其中，前两种方法是已有的方法，其思路其实还是比较常见的ranker的思路，就是对每一个文档给出一个score，然后通过这个score给所有的文档进行一下排序。

而第三种方法是文中提出一个方法，具体来说，不再借由一个外部的分数，而是直接让模型端到端的对文档进行排序。

下面，我们来具体来看一下这三个具体的方法：

1. Query Generation

首先，第一种常见的方法还是使用比较直接的思路，就是尝试计算出每一个回答的ppl值，然后使用这个ppl值作为文档的relevant score，从而对文档进行排序。

当然，这里一个显著的问题就是，ppl本质上还是描述的是文本的通顺度，而非是语义的契合度，虽然两者往往是非常契合的，但是并不等价，因此这种方式先天上存在一定的缺陷……

2. Relevance Generation

关于文中的第二种方法，如前所述，本质上依然还是用一个score来对每一个文档进行打分。

不过不同于第一种方法当中使用ppl，这里更偏近于朝向语义层面的理解，如上图b中所示，是给出passage与query之后，直接询问两者的相关性，然后通过回答当中yes与no的生成概率p的大小进行打分。

用文中的公式表达即为：

$s_i = \left\{ \begin{aligned} 1 + p(yes) && \text{if output is yes} \\ 1 - p(no) && \text{if output is no} \end{aligned} \right.$

这里的实现更类似于当前主流的ranker实现方式，不过逻辑上同样存在一定的缺陷，即在考虑回答是都是point-wise考察答案的，因此相互比较的时候可能会存在一定的问题。

3. Permutation Generation

最后这种permutation generation的方式是这篇文章当中作者提出的方案，这个方案其实算是最为直接且暴力的一个方案，就是直接利用LLM的语义理解能力直接要求LLM来对所有的候选doc进行关联性排序。

当然，通常而言，候选集的doc数量是非常大的，而LLM的输入则是有限的，因此事实上我们往往无法保证能够一次性将文本全部输入。

因此这里文章中引入了滑动窗口的方法，即仿照冒泡排序的思路，每次只对前k个文本进行排序，然后将窗口移动s，然后对后续的k个文本进行排序，迭代遍历整个文本之后，我们就能获得效果最好的前s个文本了。

具体方法可以用文中的图示进行展示如下：
在这里插入图片描述

这种方法的好处在于端到端，直接利用LLM的语义理解能力对任务进行处理，但是缺点在于需要多次调用LLM，成本和时间上都不太划算，另外由于LLM本身生成内容的可能存在一定的错误，经过多次窗口这种错误将会被放大。

下面，我们就来具体看一下其实验的效果。

3. 实验考察

1. 实验数据 & 模型设计

文中使用的实验数据主要包括以下一些：

TREC
BEIR
Mr.TyDi

而关于文中的模型使用，则主要包括以下一些模型：

text-curie-001
text-davinci-003
gpt-3.5-turbo
gpt-4

而作为control模型的，文中则主要使用了一下如下一些对照模型：

有监督模型
1. monoBERT
2. monoT5
3. TART
4. mmarcoCE
无监督模型
1. UPR
2. InPars
3. Promptagator++

下面，我们来看一下文中得到的具体实验结果。

2. 实验结果

1. TREC

首先，我们给出TREC数据集上的实验效果如下：
在这里插入图片描述

可以看到：

permutation的方法效果显著优于另外两种ranker使用方法；
permutation的方法在GPT4以及chatgpt的情况下效果可以趋近且超过有监督模型的效果。

2. BEIR

在BEIR数据集上，文中的结果如下：
在这里插入图片描述

可以看到：

和TREC数据集上的结果相接近，同样有permutation的结果甚至可以超过有监督模型的效果。

3. Mr.TyDi

最后，我们看一下文中给出的Mr.TyDi数据集上的模型表现：
在这里插入图片描述

同样可以看到：

GPT4模型上的效果同样可以在大多数的语种下超过其他control模型。

3. 消解实验

另外，文中还对于permutation的方式进行了消解实验。

文中主要考察了以下一些因素对实验结果的影响：

窗口长度（rank文章数目）
初始排序顺序
rank次数
使用模型

具体实验结果如下图所示：
在这里插入图片描述

可以看到：

整体而言，窗口越长，实验效果越好
初始顺序会大幅影响模型的效果，可见gpt的ranker更多只能充当要给辅助的精排工具，如果要其在乱序当中直接找出最好的top10，其效果就比较差了；
通过多次迭代排序的方式，我们可以进一步优化效果，但是相对的，成本也会增加；
gpt4的效果是最好的，所以如果成本允许的话通过使用gpt4进行精排有助于提升效果

4. 蒸馏实验考察

1. 模型设计

首先，关于模型的设计，文中采用DeBERTa-v3-base的架构并载入其参数进行初始化，但是对于Loss的设计，文中给出了几种不同的设计：

Listwise Cross-Entropy

$log(\frac{e^{s_i}}{\sum\limits_{j}e^{s_j}})$
RankNet

$\sum\limits_{r_i < r_j} log(1 + e^{s_i - s_j})$
LambdaLoss

$\sum\limits_{r_i < r_j} \Delta NDCG \mathop{log}_2(1+e^{s_i - s_j})$
Pointwise Binary Cross-Entropy

$\sum_{i} y_i log (\sigma (s_i)) + (1-y_i) log (1 - \sigma (s_i))$