Passage Re-ranking with BERT

本文提出了一种基于BERT的passage re-ranking方法,通过计算每个候选文档与问题的相关概率来改进答案检索流程。该方法将问题和文档输入BERT模型,并利用[CLS]标记进行二分类任务,从而实现更精确的答案定位。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Passage Re-ranking with BERT

task

有一个给定的问题,要给出答案分三个阶段
1、通过一个标准的机制从语料库中见多大量可能与给定相关的文档
2、passage re-ranking:对这些文档打分并重排序
3、分数前几的(前10、或前15等)的文档将会是这个问题答案的来源,用答案生成模型产出答案

这篇论文主要是研究第二个阶段

方法

要做的工作即是:对于一个询问 q q q,一个候选文章 d i d_i di,给出一个分数 s i s_i si

  • 询问为句子A,限制在64个token内
  • 文章为句子B,有文章截取,其长度与分隔符、询问的和最大不超过512个token

使用BERT_LARGE来做一个二分类网络,取最顶层的[CLS]作为句子的表示:来计算每个文章和询问的相关的概率,最后通关对这个概率排序来进入第三阶段

loss:

L = − ∑ j ∈ J p o s log ⁡ ( s j ) − ∑ j ∈ J n e g log ⁡ ( 1 − s j ) L=-\sum_{j\in J_{pos}}\log (s_j)-\sum_{j\in J_{neg}}\log (1-s_j) L=jJposlog(sj)jJneglog(1sj)

  • J p o s J_{pos} Jpos :相关的文章
  • J n e g J_{neg} Jneg :不相关的文章

实验

在这里插入图片描述效果比之前的好很多

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值