《DuReaderretrieval: A Large-scale Chinese Benchmark for Passage Retrieval fromWeb Search Engine》论文阅读


DuReaderretrieval: A Large-scale Chinese Benchmark for Passage Retrieval fromWeb Search Engine


作者:Yifu Qiu
机构:百度

简介

当前现存段落检索数据集存在以下两个问题:

  1. False Negative,错误标注
  2. semantically similar questions, 训练集、验证集中存在相似问题,导致数据泄露问题

基于此,提出了DuReader Retrieval 数据集,弥补以上两个问题,并且在baselines模型上验证效果,发现本书数据集仍然具有较大进步空间。

数据集介绍

DuReader Retrieval 数据集,数据来自百度搜索,标注方式采用远程标注

  1. 基于DuReader数据集,手写答案
  2. 答案与段落进行匹配,使用span-level F1做为评价指标
  3. 当F1的分数大于阈值0.5,标注为positive,反则标注negative
  4. 篇章长度控制,1)如果一个篇章长度小于256,则认为这个篇章为段落,2)对于篇章中的每个段落,如果长度小于256,则进行拼接后面的段落直到长度超过256。被拼接中有一个段落的标签为positive,则认为拼接后的段落为positive。
  5. 删除篇章的title,提升检索难度

Reducing False Negatives

为了减少标注错误的语料,

  1. 使用BM25以及四个神经网络检索模型,召回top-50段落,并使用ensemble 重排模型选择 top-5做为最终结果。
  2. 标注人员进行标签,是否前top-5的问题段落有关联关系。
  3. 至少两名检查员进行检查,如果准确率低于阈值(如:97%),则让标注人员继续标注,直到准确率打标。
  4. 最后,the average positive paragraph per query is increased from 2.43 to 4.91.

Removing Similar Questions

减少数据泄露问题,

  1. 使用问题匹配模型,输出问题对的相似度,范围(0, 1)。如果问题相似度阈值超过0.5。认为这两个问题是相似的
  2. 最终,选择出566问题在dev和test数据集中与train数据集中的问题相似。并删除566个问题

实验

baseline:

  1. BM25
  2. DE w/ BM25 Neg
  3. CE w/ BM25 Neg
  4. CE w/ DE Neg
    baseline之间的关系, 2是检索是神经网络 3 重排是神经网络 4 检索和重排都是神经网络 使用BM25抽取负样本,对2和3进行初始化,然后2 检索负样本做为4的训练集
    在这里插入图片描述

评价指标:
MRR
recall@1
recall@50

结果

在这里插入图片描述
基于神经网络的模型效果明显好于BM25.

同时,还对相似问题去除做了对比,发现CE w/o Sim Q 不带相似问题,在others问题上表现更好
在这里插入图片描述

在zero-shot上表现明显弱于传统方法,经过fine-tuning后,效果有所提升,所以领域适用性并不好
在这里插入图片描述

总结

模型在数据集中存在的问题:

  1. 实体匹配错误 (taobao -> alipay)39%
  2. 数字匹配错误 (2016->2017)5%
  3. 修饰词匹配错误 (吃完海鲜->早晨)9.4%
  4. 语义理解错误 (从台北怎么去瑞芳-> 从瑞芳怎么去台北)1%
  5. 鲁棒性(拼写错误和关键词敏感) 22.6%
    在这里插入图片描述
    因此,模型在DuReader Retrieval数据集中仍存在较大的进步空间。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值