Sigir2024 ranking相关论文速读

最新推荐文章于 2024-07-09 23:18:38 发布

Miha_Singh

最新推荐文章于 2024-07-09 23:18:38 发布

阅读量734

点赞数 13

分类专栏： NLP IR 论文文章标签：人工智能论文阅读

本文链接：https://blog.csdn.net/Miha_Singh/article/details/139706446

版权

2 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

简单浏览一下Sigir2024中与ranking相关的论文。不得不说，自从LLM大热后，传统的LTR方向的论文是越来越少了，目前不少都是RAG或类似场景下的工作了，比如查询改写、rerank等。

对query进行改写和两个模型进行排序。大致流程：

基于LLM和相关的文档对query进行改写，丰富长尾query的信息。
- 改写时需要筛选文档中与query相关的句子。
针对长尾query，在扩充后的query上训练一个专门的排序模型；
一共有两个排序模型，分别是针对简单query的Base Ranker和困难query的Specialized Ranker。以及一个判断query是否为困难query的模型。计算文档最终的得分时，先计算query为困难query的概率，再用两个排序模型计算得分并加权作为最终得分。

query改写在检索阶段的作用很明显，其对交互式编码器的影响几何呢？已有的一些工作表明查询扩展对弱一些的排序模型效果更好，对强的则可能有害。如何应用查询扩展才能使其提升排序模型的能力呢，论文给出了两个关键的步骤：

高质量的关键词生成。排序更关注准确性（与检索不同），因此对查询扩展的精确性要求更高，避免扩展出现语义漂移的问题。文中的做法：通过LLM生成关键词，并通过self-consistency进行筛选（简言之：生成多次，取出现频率高的）。
- 这个确实很重要。排序阶段应该尽量保持原始查询的精确性，避免改写过于发散。
最小化查询扩展的破坏性。如何将生成的关键词插入到查询中，以最小化插入后的语义漂移。实验表明，即使直插入3个关键词在原始查询的末尾也会导致精度退化。文中的做法：每个关键词分别与原查询拼接后，各自进行排序，再进行融合。