【笔记1-1】基于对话的问答系统CoQA (Conversational Question Answering)

最新推荐文章于 2024-08-28 07:00:00 发布

jessie_weiqing

最新推荐文章于 2024-08-28 07:00:00 发布

阅读量6.3k

点赞数 10

分类专栏：笔记陈丹琦论文文章标签： nlp 自然语言处理 CoQA DrQA PGNet

本文链接：https://blog.csdn.net/cindy_1102/article/details/88560048

版权

CoQA是一个对话式问答数据集，旨在衡量机器在自然对话中的问答能力，包含8000个对话的127000对问题+答案。与SQuAD等不同，CoQA更注重对话历史和答案的自然性。模型方面，结合了PGNet和DrQA以生成答案。评估指标使用F1分数，目前最佳模型与人类表现仍有差距。

摘要由CSDN通过智能技术生成

CoQA: A Conversational Question Answering Challenge

（一）论文概述（摘要+简介）
（二）目标任务
（三）数据收集过程
（四）数据集分析
（五）模型部分
（六）模型评估
（七）总结

CoQA: A Conversational Question Answering Challenge (Siva Reddy, Danqi Chen, Christopher D. Manning) https://arxiv.org/pdf/1808.07042v1.pdf

CoQA Challenge: https://stanfordnlp.github.io/coqa/

最近在读陈丹琦学姐的博士毕业论文，论文里面涉及到的关键论文和模型都会在近期进行一下总结，以帮助理解毕业论文中的相关模型以及思想。

【笔记1-2】基于维基百科的开放域问题问答系统DrQA

【笔记1-3】斯坦福机器阅读理解模型Stanford Attentive Reader

【笔记1-4】陈丹琦毕业论文 NEURAL READING COMPREHENSION AND BEYOND
初步感慨：不看陈丹琦学姐的论文是真的不知道她有多么厉害，看了之后不仅自己要感慨一番学姐的过人之处，还要拉着旁边的同学安利一波，是真的非常佩服了，恨不得自己高中的时候也早早搭上AI的车。看来以后要多多努力了，站在巨人的肩膀上也还是能够有所成就的。

（一）论文概述（摘要+简介）

1. CoQA是什么:

人们在日常对话中可以通过问答来逐渐地接收以及传递信息，但是传统的机器阅读理解并不具备这一功能，基于这一需求，产生了CoQA。CoQA (Conversational Question Answering)对应的中文发音为“扣卡”，是一个用来衡量机器进行对话式问答能力的数据集，包含来自8000个对话的127000对问题+答案（见下图示例）。
数据集示例
与传统机器阅读理解中的问题和答案不同，该数据集中的问题和答案形式更加简洁，自由，基于对话的形式进行，与人们的日常对话更加相似。此外，得出相应答案的文章内容会进行标注。

2. 为什么要有CoQA：

以往的机器阅读理解以及基于此研究出来的对话机器都有一个显著的特点，对话不够自然。基于这一问题开发的CoQA旨在实现以下几个目标：

还原人类对话的性质：人们在日常对话中很少像阅读理解一样，基于材料给出常常的问题，或者基于材料生搬硬套出一个答案，要还原对话的这一本质，就需要解决传统阅读理解问题的问题-文章依赖性，以及实现基于对话历史的问答
保证答案的自然性：正如前文所述，以往的阅读理解会依赖材料截取答案，导致答案不够自然，不够口语化。因此要通过CoQA训练出形式较为自由的抽象答案（如上图相关回答），而不是简单的信息提取。
实现QA系统在不同领域的稳健性：以往的QA数据集来源于单一领域（如NewsQA, SQuAD, MS Marco, RACE等）而CoQA的数据来源于七个领域（域内：children’s
stories, literature, middle and high school English exams, news, Wikipedia,域外： science and Reddit），以提高模型的泛化能力。

3. CoQA有什么独特之处：

来自8000个对话的127000轮问答，单个对话平均有15轮问答，每轮问答包含一个问题一个答案
答案形式自由，附带答案在文章中的相应出处（rationale，也就是得出该答案的依据）
文章来源于七个领域（5域内+2域外）

4. CoQA有什么难点以及目前最佳模型的表现：

近一半的CoQA问题中都用到了共指关系（如下图所示），需要根据历史信息得出正确答案，这对于传统机器问答而言是一项巨大的挑战。作者在对CoQA划定benchmark的时候，发现基于答案依据（rationale）的序列到序列（seq2seq）模型表现最好，但相比人类表现而言依旧有很大的提升空间（F1：65.1% < 88.8%）

模型表现跟进：
2018在CoQA数据集上表现最佳的是微软语音与对话研究团队开发的SDNet，其F1高达80.7%，成为第一个在CoQA数据集上得分超过80%的模型。