Gigaword数据集是一个广泛使用的用于文本摘要和文本处理任务的大规模数据集。它由英语新闻文章组成,包含了来自多个新闻源的文章。
Gigaword数据集最初由纽约时报和华尔街日报等新闻机构提供,并由LDC(Linguistic Data Consortium)维护和发布。该数据集的命名源自其规模之大,其中"giga"表示十亿。它包含了数十亿个标记化的句子和数百万个新闻文章。
Gigaword数据集主要用于文本摘要任务,这是一种将长文本压缩成简洁摘要的任务。研究人员和开发人员可以使用该数据集来训练和评估自动文本摘要系统的性能。此外,Gigaword数据集还可用于其他文本处理任务,如机器翻译、信息检索和文本生成等。
该数据集中的新闻文章涵盖了各种主题和领域,包括政治、经济、科技、娱乐等。每篇文章都有其原始文本形式和经过摘要处理的简洁版本,这使得研究人员可以使用原始文本进行各种自然语言处理任务,或使用摘要版本进行文本摘要研究。
Gigaword数据集的规模和多样性使其成为研究和开发文本处理任务的重要资源,帮助推动了自然语言处理领域的发展。
获取方法:
方法1:注册LDC账号并加入组织获取数据,官网链接:LDC官网
方法2:关注公众号,回复Gigaword LDC语料小助手https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg