文献翻译与阅读《CompMix: A Benchmark for Heterogeneous Question Answering》

引言

基于事实的QA主要分为三个方向

( i ) KB-QA :用KB作为答案来源的方法,如Wikidata

( ii ) text-QA:在文本语料库上操作的方法

( iii ) table-QA:点击进入一个收集的网络表格

每个方向都有自己QA系统的测试和比较基准。

Motivation

仅使用单一信息源限制了:

问答系统的答案覆盖率:单个信息源不完整,可能无法覆盖回答用户问题所需的知识。

如:

(1)Who was fouled before the first penalty in the 2022 FIFA final?

体育赛事的详细信息:KB/表格中很少,比赛的新闻和讨论(text)多。

(2)Argentina’s ball possession in the 2022 WC final?

结构化信息源(表格)中通常存储匹配的详细信息,文本中不存在。

  1. In which stadium was the 2022 soccer world cup final played?

答案出现在多种来源中。答案冗余也可为QA系统提供帮助。

(4)Which team was behind by two goals but still won a FIFA final?

答案出现在Wikidata、文本内容和、维基百科的信息框中。

在KB中查找:国际足联决赛名单和获胜名单

在文本/表中查找:比赛时间轴上的进球赤字信息。

异质问答出现:

        联合利用多种来源回答事实问题。

KB、文本和表格的组合中评估问答有两种方法

( i )从现有的单源问题基准开始,扩展或改变潜在的源。

例如:在KB中添加文本文章,选择性地弱化KB内容,以突出添加源的好处。

缺点:创造了关于来源的人造情况

( ii )使用专用异构QA的基准(数量少)测试程序。

缺点:现有的基准测试以简单的问题为主,这些问题对于保证质量的系统来说不具有真正的挑战性。

在formulation和用户意图方面几乎没有多样性,并且基准往往只覆盖主题的狭窄领域。

新基准:CompMix(混合信息源):

        一个众包问答基准测试集。混合了信息源:

  1. KB:Wikidata
  2. Text:WikiPedia
  3. Tables
  4. Inforbox

问题数量:9410

问题领域:书籍,电影,音乐,电视剧和足球。

答案形式:文本。

分析了多种来源的组合 对 答案覆盖率和冗余度的 影响,表明真正需要的是异质性来源。

基准设计原则

此前基准

为了有一个特定的答案来源而创建,包含了几乎所有问题的答案。

KB-QA :WebQuestions 、SimpleQuestions

text-QA:SQuAD 、NaturalQuestions

table-QA:WikiTableQuestions 、NQ-Tables

存在以下问题:

  1. 缺乏真实用户的多样化表述:问题不是完全由人工生成的;
  2. 只跨越两个来源:如表格和文本,或文本和KBs;
  3. 仅限于小型或人造KBs:比大型KBs (如Wikidata )小几个数量级;
  4. 只研究一个领域:如金融、地理、电子商务;
  5. 问句只具有隐含意图的会话形式,不适合评估独立的QA方法。

设计原则:

  1. 问题应由人类创造;
  2. 问题需要异质性来源
  3. 不得人为构造或限制来源
  4. 不应是特定领域的,而应涵盖广泛的主题
  5. 问题要自成体系、完整。

新基准Comp Mix满足以下设计原则:

  1. 众包;
  2. 横跨4种来源;
  3. 包括完整的大规模KB作为来源之一;
  4. 涵盖了五个不同的主题域;
  5. 问题是自足的。

基准分析:

好的异构问答基准中,每个源的答案覆盖率应该远小于100 %。

计算答案覆盖率:用面向回忆的检索器 对答案覆盖率进行自动分析(即给定一个问题,试图从所有来源中获得尽可能多的相关证据)

步骤:

  1. 面向回忆的检索器从问题中对KB- entity消歧(用Clocq,一个最近的系统)
  2. 用这些消歧的KB-entity 检索KB-fact、text-sentence、table-records和inforbox-entity。
  3. 自动答案覆盖率度量为:在检索到的证据池中,黄金答案 在这一组提及的实体中 的问题数量。

答案覆盖率:是一个有噪声的代理,因为仅仅存在一个答案并不一定意味着周围的证据是与问题相关的。

基准评价:

度量:P@1、P@5、MRR。

如果系统答案恰好(不区分大小写)与维基数据ID (如果QA系统返回ID)或伴随的明文字符串/实体标签(如果QA系统返回的是简单文本)匹配,则认为该系统答案是正确的。指标是所有问题的平均值。

教训:

对于759个( 27.5 % ),没有一个方法(包括Gpt - 3)能够找到正确答案。其中有两个是:

"他在《少年派电影的生活》中扮演成年的皮·帕特尔? "和"为曼联踢球的双胞胎兄弟是谁?"即:

Who played as adult Pi Patel in Life of Pi movie?

Who were the twin brothers who played soccer for Manchester United?

  • 27
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值