【论文】使用文本分类的PRF

The Simplest Thing That Can Possibly Work: Pseudo-Relevance Feedback Using Text Classification

论文链接:https://arxiv.org/abs/1904.08861v1

ABSTRACT

本文试图用“最简单的事情”来解决数十年的伪相关反馈问题。

文章提出了一种技术,该技术基于使用初始排序列表中的伪标签为每个信息需求训练文档相关性分类器,然后应用分类器对检索到的文档进行重新排序。

INTRODUCTION

对神经排序模型效果有疑问

文章给出了一种简单可行的方法:

给定一个标准的 ad hoc 检索设置,一个排序模型产生一个关于查询 Q 表示的信息需求的排序列表 H;这称为基本运行。按照伪相关反馈的一般设置,假设前 r 个命中是相关的,即 Python 数组切片表示法中的 H[:r]。进一步假设排名列表的最后 n 个命中不相关,即 Python 的数组切片表示法中的 H[-n:]。然后使用这些带有伪标签的 r+n 个文档在文档术语的 tf-idf 表示上训练一个文本分类器。本文探讨了逻辑回归、SVM 和一个简单的集成。然后应用经过训练的分类器对基础运行中的所有文档进行评分:

一个新的文档分数,由线性插值组成然后使用初始检索分数和分类器分数之间的值来创建最终排名列表(用于评估)。对四个新闻专线集合的实验表明,与来自“词袋”BM25 的基本运行以及已经通过 RM3 利用伪相关反馈的基本运行相比,这种简单的技术显着提高了有效性。

将文档排名视为二元分类问题以区分相关文档和非相关文档的想法历史悠久,可以追溯到Robertson 和 Spark Jones的二元独立检索 (BIR) 模型。

使用了无监督的负标签,本文将所有相关特征放在一起——使用正负伪标签在伪相关反馈设置中训练文本分类器以进行临时检索

EXPERIMENTAL SETUP

三种不同的模型:逻辑回归 (LR)、具有线性内核的 SVM,以及使用简单分数平均的两者的集合。在每种情况下,然后将每个主题的训练分类器应用于基础运行中该主题的排名列表中的所有文档。使用检索和分类器分数之间的线性插值对基本运行中的文档进行重新排序。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值