文献翻译与阅读《CompMix: A Benchmark for Heterogeneous Question Answering》

最新推荐文章于 2024-08-14 20:51:06 发布

啾啾啾666

最新推荐文章于 2024-08-14 20:51:06 发布

阅读量792

点赞数 27

分类专栏：异构数据源QA-Benchmark 文章标签：自然语言处理

本文链接：https://blog.csdn.net/weixin_42052249/article/details/140157336

版权

异构数据源QA-Benchmark 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

引言

基于事实的QA主要分为三个方向：

( i ) KB-QA ：用KB作为答案来源的方法，如Wikidata

( ii ) text-QA：在文本语料库上操作的方法

( iii ) table-QA：点击进入一个收集的网络表格

每个方向都有自己QA系统的测试和比较基准。

Motivation：

仅使用单一信息源限制了:

问答系统的答案覆盖率：单个信息源不完整，可能无法覆盖回答用户问题所需的知识。

如：

（1）Who was fouled before the first penalty in the 2022 FIFA final?

体育赛事的详细信息：KB/表格中很少，比赛的新闻和讨论（text）多。

（2）Argentina’s ball possession in the 2022 WC final?

结构化信息源（表格）中通常存储匹配的详细信息，文本中不存在。

In which stadium was the 2022 soccer world cup final played?

答案出现在多种来源中。答案冗余也可为QA系统提供帮助。

（4）Which team was behind by two goals but still won a FIFA final?

答案出现在Wikidata、文本内容和、维基百科的信息框中。

在KB中查找：国际足联决赛名单和获胜名单

在文本/表中查找：比赛时间轴上的进球赤字信息。

异质问答出现:

联合利用多种来源回答事实问题。

在KB、文本和表格的组合中评估问答有两种方法：

( i )从现有的单源问题基准开始，扩展或改变潜在的源。

例如：在KB中添加文本文章，选择性地弱化KB内容，以突出添加源的好处。

缺点：创造了关于来源的人造情况

( ii )使用专用异构QA的基准（数量少）测试程序。

缺点：现有的基准测试以简单的问题为主，这些问题对于保证质量的系统来说不具有真正的挑战性。

在formulation和用户意图方面几乎没有多样性，并且基准往往只覆盖主题的狭窄领域。

新基准：CompMix（混合信息源）:

一个众包问答基准测试集。混合了信息源：

KB：Wikidata
Text：WikiPedia
Tables
Inforbox

问题数量：9410

问题领域：书籍，电影，音乐，电视剧和足球。

答案形式：文本。

分析了多种来源的组合对答案覆盖率和冗余度的影响，表明真正需要的是异质性来源。

基准设计原则

此前基准：

为了有一个特定的答案来源而创建，包含了几乎所有问题的答案。

KB-QA ：WebQuestions 、SimpleQuestions

text-QA：SQuAD 、NaturalQuestions

table-QA：WikiTableQuestions 、NQ-Tables

存在以下问题：

缺乏真实用户的多样化表述：问题不是完全由人工生成的；
只跨越两个来源：如表格和文本，或文本和KBs；
仅限于小型或人造KBs：比大型KBs (如Wikidata )小几个数量级；
只研究一个领域：如金融、地理、电子商务；
问句只具有隐含意图的会话形式，不适合评估独立的QA方法。

设计原则：

问题应由人类创造；
问题需要异质性来源
不得人为构造或限制来源
不应是特定领域的，而应涵盖广泛的主题
问题要自成体系、完整。

新基准Comp Mix满足以下设计原则：

众包；
横跨4种来源；
包括完整的大规模KB作为来源之一；
涵盖了五个不同的主题域；
问题是自足的。

基准分析：

好的异构问答基准中，每个源的答案覆盖率应该远小于100 %。

计算答案覆盖率：用面向回忆的检索器对答案覆盖率进行自动分析（即给定一个问题，试图从所有来源中获得尽可能多的相关证据）

步骤：

面向回忆的检索器从问题中对KB- entity消歧(用Clocq,一个最近的系统)
用这些消歧的KB-entity 检索KB-fact、text-sentence、table-records和inforbox-entity。
自动答案覆盖率度量为：在检索到的证据池中，黄金答案在这一组提及的实体中的问题数量。

答案覆盖率：是一个有噪声的代理，因为仅仅存在一个答案并不一定意味着周围的证据是与问题相关的。

基准评价：

度量：P@1、P@5、MRR。

如果系统答案恰好(不区分大小写)与维基数据ID (如果QA系统返回ID)或伴随的明文字符串/实体标签(如果QA系统返回的是简单文本)匹配，则认为该系统答案是正确的。指标是所有问题的平均值。

教训：

对于759个( 27.5 % )，没有一个方法(包括Gpt - 3)能够找到正确答案。其中有两个是：

"他在《少年派电影的生活》中扮演成年的皮·帕特尔? "和"为曼联踢球的双胞胎兄弟是谁？"即：

Who played as adult Pi Patel in Life of Pi movie?

Who were the twin brothers who played soccer for Manchester United?

啾啾啾666

关注

27
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
文献翻译与阅读《CompMix: A Benchmark for Heterogeneous Question Answering》

如果系统答案恰好(不区分大小写)与维基数据ID (如果QA系统返回ID)或伴随的明文字符串/实体标签(如果QA系统返回的是简单文本)匹配，则认为该系统答案是正确的。指标是所有问题的平均值。现有的基准测试以简单的问题为主，这些问题对于保证质量的系统来说不具有真正的挑战性。分析了多种来源的组合对答案覆盖率和冗余度的影响，表明真正需要的是异质性来源。是一个有噪声的代理，因为仅仅存在一个答案并不一定意味着周围的证据是与问题相关的。为了有一个特定的答案来源而创建，包含了几乎所有问题的答案。
复制链接

扫一扫

专栏目录