CoQA: A Conversational Question Answering Challenge
CoQA: A Conversational Question Answering Challenge (Siva Reddy, Danqi Chen, Christopher D. Manning) https://arxiv.org/pdf/1808.07042v1.pdf
CoQA Challenge: https://stanfordnlp.github.io/coqa/
最近在读陈丹琦学姐的博士毕业论文,论文里面涉及到的关键论文和模型都会在近期进行一下总结,以帮助理解毕业论文中的相关模型以及思想。
【笔记1-3】斯坦福机器阅读理解模型Stanford Attentive Reader
【笔记1-4】陈丹琦毕业论文 NEURAL READING COMPREHENSION AND BEYOND
初步感慨:不看陈丹琦学姐的论文是真的不知道她有多么厉害,看了之后不仅自己要感慨一番学姐的过人之处,还要拉着旁边的同学安利一波,是真的非常佩服了,恨不得自己高中的时候也早早搭上AI的车。看来以后要多多努力了,站在巨人的肩膀上也还是能够有所成就的。
(一)论文概述(摘要+简介)
1. CoQA是什么:
人们在日常对话中可以通过问答来逐渐地接收以及传递信息,但是传统的机器阅读理解并不具备这一功能,基于这一需求,产生了CoQA。CoQA (Conversational Question Answering)对应的中文发音为“扣卡”,是一个用来衡量机器进行对话式问答能力的数据集,包含来自8000个对话的127000对问题+答案(见下图示例)。
与传统机器阅读理解中的问题和答案不同,该数据集中的问题和答案形式更加简洁,自由,基于对话的形式进行,与人们的日常对话更加相似。此外,得出相应答案的文章内容会进行标注。
2. 为什么要有CoQA:
以往的机器阅读理解以及基于此研究出来的对话机器都有一个显著的特点,对话不够自然。基于这一问题开发的CoQA旨在实现以下几个目标:
- 还原人类对话的性质:人们在日常对话中很少像阅读理解一样,基于材料给出常常的问题,或者基于材料生搬硬套出一个答案,要还原对话的这一本质,就需要解决传统阅读理解问题的问题-文章依赖性,以及实现基于对话历史的问答
- 保证答案的自然性:正如前文所述,以往的阅读理解会依赖材料截取答案,导致答案不够自然,不够口语化。因此要通过CoQA训练出形式较为自由的抽象答案(如上图相关回答),而不是简单的信息提取。
- 实现QA系统在不同领域的稳健性:以往的QA数据集来源于单一领域(如NewsQA, SQuAD, MS Marco, RACE等)而CoQA的数据来源于七个领域(域内:children’s
stories, literature, middle and high school English exams, news, Wikipedia,域外: science and Reddit),以提高模型的泛化能力。
3. CoQA有什么独特之处:
- 来自8000个对话的127000轮问答,单个对话平均有15轮问答,每轮问答包含一个问题一个答案
- 答案形式自由,附带答案在文章中的相应出处(rationale,也就是得出该答案的依据)
- 文章来源于七个领域(5域内+2域外)
4. CoQA有什么难点以及目前最佳模型的表现:
近一半的CoQA问题中都用到了共指关系(如下图所示),需要根据历史信息得出正确答案,这对于传统机器问答而言是一项巨大的挑战。作者在对CoQA划定benchmark的时候,发现基于答案依据(rationale)的序列到序列(seq2seq)模型表现最好,但相比人类表现而言依旧有很大的提升空间(F1:65.1% < 88.8%)
模型表现跟进:
2018在CoQA数据集上表现最佳的是微软语音与对话研究团队开发的SDNet,其F1高达80.7%,成为第一个在CoQA数据集上得分超过80%的模型。
2019年1月,搜狗研究团队凭借BERT + Answer Verification(单一模型),在CoQA上F1高达82.8%
(之后有时间的话会对这部分相关内容进行跟进了解)
(二)目标任务
任务:
给定一篇文章和一段对话,回答对话中的下一个问题。
对话中的每一轮由问题(Q),答案(A),依据( R)组成,答案往往比依据简洁很多。
回答问题时,需要考虑对话中的历史信息,比如回答 Q 2 Q_2 Q2时,要基于对话历史 Q 1 Q_1 Q1, A 1 A_1 A1以及回答依据 R 2 R_2