Information Retrieval
文章平均质量分 92
默默无闻的[UNK]
这个作者很懒,什么都没留下…
展开
-
[ECIR 2022] Improving BERT-based Query-by-Document Retrieval with Multi-Task Optimization
基于BERT等PLMs的排序模型会面临最大输入长度的限制,然而近来的工作也证明了许多用于处理长文本的transformer-based models 在被应用到长文本检索任务时,也不够有效。基于此,本文研究在有限输入长度的限制下提升基于BERT的排序模型的检索性能。这个想法很novel,BERT作为re-ranker的时候,需要将两个文本拼接到一起输入,本文提出同时将这些文本单独输入BERT,并使用triplet loss来优化模型对文本的表示。推理时,模型只被用作point-wise的预测。原创 2023-02-15 16:08:10 · 116 阅读 · 0 评论 -
[COLING 2022] DPTDR: Deep Prompt Tuning for Dense Passage Retrieval
在工业应用的多任务场景中,基于fine-tuning (FT) 的方法在部署成本方面是不友好的。每次检索都必须重新部署一个backbone模型,因为每个任务中的backbone模型的权重是微调的,因此略有不同。Deep Prompt Tuning (DPT) 享有参数高效的特点,其中产生的prompt是轻量级的,可以很容易地传递给在线PLM服务,从而克服了FT的上述挑战。本文探究DPT是否能达到与SOTA FT方法可比的性能。因为在性能相当的情况下,DPT在部署上比FT更友好。原创 2022-11-27 14:26:47 · 441 阅读 · 0 评论 -
Large Dual Encoders Are Generalizable Retrievers
Large Dual Encoders Are Generalizable Retrievers(arXiv)原文地址:https://arxiv.org/pdf/2112.07899.pdfMotivation之前的研究发现,在一个领域上训练的双塔模型通常不能泛化到其他领域的检索任务。一种普遍的看法是双塔模型的bottleneck layer (点积操作层) 太过受限以至于双塔模型不能成为有好的领域外泛化能力的检索模型。本文通过 固定bottleneck向量大小,增加双塔模型的容量 来挑战这种看法。原创 2022-02-20 15:08:56 · 926 阅读 · 0 评论