Quiz-Style Question Generation for News Stories

最新推荐文章于 2024-07-12 17:15:01 发布

Cc2018qaq

最新推荐文章于 2024-07-12 17:15:01 发布

阅读量203

点赞数

分类专栏：论文阅读笔记文章标签：自然语言处理

本文链接：https://blog.csdn.net/Cc2018qaq/article/details/124112251

版权

论文阅读笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Quiz-Style Question Generation for News Stories

新闻故事问答式问题生成

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ql9D3uDX-1649689584330)(D:\文件夹\笔记\Paper\image-20220410212343463.png)]

1. 提出了什么问题？是否是个新问题？

许多在线新闻产品的目标是让用户了解新闻，但它们通常缺乏可扩展和可靠的工具来衡量它们在多大程度上实现了这一目标。这不是个新问题，通常依赖参与度指标（点击率，阅读时长）作为信息量的代表（新闻信息量 News informedness measures，新闻信息量衡量的是读者对新闻中重要时事的了解程度）。

最近新闻信息学的学术著作使用多项选择题和真假问题来评估受访者的时事、公民和一般背景知识，这些问题都是手工编写的，但是调查结果只针对常识而且这种调查很少进行。作者由此启发利用针对新闻故事的Quiz-Style问题生成来衡量新闻是否被用户很好的了解。

2. 贡献?

为了在一定尺度上衡量新闻信息量，作者研究了Quiz-Style问答式多项选择题生成问题，该问题可用于调查用户对最近新闻的了解。将问题描述为两个序列到序列的任务：问题-答案生成（QAG）和干扰项生成（DG）。NewsQuizQA是第一个用于问答式问答生成的数据集，包含来自5K篇新闻文章摘要的20K对人类书面问答。将这个数据集用于将大型预训练变压器编码器-解码器模型（即PEGASUS和T5）应用于问题-答案生成和干扰项生成任务。自动评价指标和人工评价显示他们的工作优于baseline.并且发布了NewsQuizQA数据集。最后作者使用他们的模型自动生成每周调查，通过谷歌调查平台在两个月的时间里对真实用户进行调查。本案例研究的结果表明，我们生成的多项选择题既有教育意义，又令人愉快。

3. 问题生成

对于Quiz-Style的问题-答案生成，在给定输入段落的情况下，目标是生成一个问题及其相关的正确答案（也称为关键），要求问题必须能够独立出来，例如在突击测验中，不参考任何源材料。换句话说，问题必须包含足够的信息，以便在与任何段落无关的情况下回答。

模型架构

利用文档摘要预训练的文档摘要模型PEGASUS。作者认为QAG与摘要有许多相似之处。

弱监督训练解决低资源QAG

首先利用已有的数据集如SQuAD,NewsQA等数据集联合起来微调PEGASUS。这一步遇到的一个问题是不同的数据集可能存在相同的Context，而基于这个context不同的数据集提出的问题风格可能迥然不同，为了解决这个问题作者从T5中得到灵感，在不同数据集来源的数据前加上对应前缀，比如StyleSQuAD:,NewsQA:.

最低参考损失

由于数据集包含四个标准问答对，作者采用最低参考损失来评估，也就是预测的问答对和四个参考问答对的最高匹配分数用来评估模型。

4. NewsQuizQA

为什么要构建这个数据集

作者认为传统的阅读理解数据集如SQuAD不适用于Quiz-Style问答式问题生成，因为阅读理解问题假定读者能够到源文章中寻找答案。

例：他说了什么？

以前的工作使用的从搜索引擎查询语句中衍生出来的数据集，例如Natural Questions or MS Marco，也不适合这项任务，因为类问题的查询语句通常太短，而且不够通顺流利，不足以支撑quiz context。

总的来说就是，这些数据集要么就是和源文本关联性太强，要么就是为其他任务设计

为了解决测试式QAG任务缺乏可行的训练数据的问题，作者发布了NewsQuizQA。

数据集介绍

NewsQuizQA由2万对人工标注的Quiz-style问答组成，来自5万篇新闻文章摘要，涵盖2018年6月至2020年6月的新闻。作者针对这项任务构造了在不参考原文的情况下，提出可以独立的问题。每个新闻文章摘要都有四个相关的参考问题-答案对，这些问答对都被认为是正确的可能输出。

如何构建这个数据集

一种专有的聚类算法可以迭代地加载在最近的时间窗口中发布的文章，并根据内容相似性对它们进行分组。为了构建数据集，每周选取前50个聚类，并为每个聚类选择一篇靠近质心的代表性文章。然后用CNN/Dailymail摘要数据集微调的模型PEGASUS提取文章的摘要，这是一个当时最先进的用于单个文档的摘要模型。**之所以使用摘要是因为标注数据时摘要更为有效，原本的文章对于标注者来说太好费时间了。**每篇摘要交给五个标注者，要求他们阅读摘要并且按照一下规则提出一个问答组合。

具体的标注规则：a)这个问题只能根据该段落中的信息来回答 b)提供了足够的背景来回答这个问题，而不需要联系上下文 c)这个问题的答案很简短。也就是说，而不是“如何”或“为什么”类型的问题，只能用一个完整的句子来回答 d)这个问题应该是关于这篇文章中最有趣或最重要的方面之一 e)这个问题以一个问号结束。 f)这个问题不是一个“是”/“否”的问题 g)答案是一个没有结尾标点符号的单词或短语。h)答案只传达了答案，不包含不必要的部分，也没有重述问题的某些部分。

通过这一步他们收集了26000对问答对，然后进行后处理：先用一个先进的语法纠错模型来纠正语法，拼写，标点符号和大写错误。然后对于每篇摘要的五个问答对，其中对短的问题直接被删除，包含特定短语的问题也被删除，比如“I”,“According to the passage”。然后，只保留剩下4个问答对的摘要，按照8-1-1的比例用于训练验证和测试。

他们用这个方法得到了一个高质量的数据集，这些问题通常更长，而且涵盖了各种形式的问题和答案，而不仅仅是“who”或者"where“

这个数据集的局限性

数据量较小；每个问答对都被看做是正确的，如何在训练时利用不同的参考输出。

如何解决？

弱监督；Minimum Reference Loss最低参考损失

5. 干扰项生成

干扰物生成的主要目标是生成答案选项，这些答案选项对那些不知道正确答案的用户来说可能是正确的。干扰者也应该明显地不同于正确答案和彼此，它们不应该是对问题的正确答案（对于可能有多个正确答案的问题）。由于错误答案选项的合理性本质上是主观的，不定义的，依赖于领域和上下文，以及缺乏训练和评估数据，因此产生可信的干扰项的任务具有挑战性。

作者采用了一种新颖的方法，直接模拟人们会猜测的东西，作为测验问题的答案。该模型可以纯粹基于问题文本本身生成高质量的干扰物，而不依赖于答案或文本。此外，与之前的大多数工作不同的是，这个生成模型可以生成自由形式的文本，无论这个问题是否期望一个实体，短语，数字，甚至是整个句子作为答案，该模型通常能够产生在语法和语义上都合适的干扰物（而不知道正确答案的格式）。

微调T5模型来直接从问题生成干扰项。

6. 评估

rouge评估QAG

人工评估DG

7.样例

Which two NFL teams suspended team activities after three playersand five staff members tested positive for coronavirus?

Miami Dolphins and Tampa Bay Buccaneers

Tennessee Titans and Minnesota Vikings

Carolina Panthers and Seattle Seahawks

Kansas City Chiefs and Denver Broncos

哪两个NFL球队在三名球员和五名工作人员检测呈阳性后暂停了球队活动？迈阿密海豚队和坦帕湾海盗队田纳西巨人队和明尼苏达维京人队卡罗莱纳黑豹队和西雅图海鹰队堪萨斯城酋长队和丹佛野马队

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XtaZEoAz-1649689584332)(D:\文件夹\笔记\Paper\image-20220410114956827.png)]

8. 启发

能否构建一个PPTQA数据集，基于此训练一个模型，来评估学生能否很好的理解该PPT?即评估PPT的质量，或者评估读者是否很好的掌握了PPT的内容。

Cc2018qaq

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Quiz-Style Question Generation for News Stories

Quiz-Style Question Generation for News Stories新闻故事问答式问题生成[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ql9D3uDX-1649689584330)(D:\文件夹\笔记\Paper\image-20220410212343463.png)]1. 提出了什么问题？是否是个新问题？许多在线新闻产品的目标是让用户了解新闻，但它们通常缺乏可扩展和可靠的工具来衡量它们在多大程度上实现了这一目标。这不是个新问题，通常依赖
复制链接

扫一扫