Question Answering Text Summarization Datasets汇总

最新推荐文章于 2024-08-14 11:05:36 发布

梨小橙子

最新推荐文章于 2024-08-14 11:05:36 发布

阅读量694

点赞数

文章标签： nlp

本文链接：https://blog.csdn.net/Herbe_chanceux/article/details/115766541

版权

本文介绍了三个非事实性问题解答数据集：WikiHow、其改进版WikiHowQA，以及PubMedQA，聚焦于医学领域的非文本摘要任务。挑战在于这些数据集的抽象性和与传统新闻数据集的区别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目前对于自动文本摘要这一块，研究多数采用的是news articles的数据:DUC, Gigaword, New York Times, CNN/Daily Mail等。有兴趣的同学可以去搜索一下。本文主要介绍一些关于Non-factoid QA或更加抽象的数据集。

WikiHow：

示例：
适用的任务：
non-factoid question answering 中的text summarization;
挑战：
相比CNN/Daily等数据集，WikiHow数据集更加抽象。新闻类的数据集一般核心内容集中在前三句，因此用lead-3就可以取得相当不错的效果。但却不适用于WikiHow数据集，因此目前还算是比较具有挑战性的数据集；

WikiHowQA：

介绍：
2020年由Deng等人提出来的一个在WikiHow数据集上进行了改进，且又从wikihow网站抓取的数据汇总而来的数据集。详细介绍请参照原始论文；数据的github.
数据结构如下表：

适用任务：
non-factoid question answering 中的answer selection;
non-factoid question answering 中的text summarization;
挑战：
该数据集的数量还是可以满足深度学习的train要求。具有一定的挑战；

PubMedQA：

介绍：
2019年由Jin等人提出来的一个在PubMed网站抓取的数据汇总而来的数据集。详细介绍请参照原始论文；数据的github. 每条数据由一个问题，一个上下文用于回答问题的，一个对上下问的总结，一个yes/no/maybe，用于评判能否回答相对应的问题。
数据结构如下表：

示例：
适用任务：
non-factoid question answering 中的text summarization;
non-factoid question answering 中的answer selection（三分类yes/no/maybe）

MEDIQA-AnS：

介绍：
此数据集属于小而精的数据集，是在2020年由Savery等人提出来的一个医学类的数据集，主要针对使没有医学专业知识的人能更加容易获取健康的信息所提出来的。详细介绍请参照原始论文；数据的github. 该数据比较小，包含了156个问题、问题的答案以及这些答案所对应的摘要。
示例：
同类型的医学数据集还有：
BioASQ
MedInfo
有兴趣的可以自己去查找一下。
后续会继续补充。。。。。