Gigaword数据集,官网编号LDC2011T07

Gigaword数据集是一个广泛使用的用于文本摘要和文本处理任务的大规模数据集。它由英语新闻文章组成,包含了来自多个新闻源的文章。

Gigaword数据集最初由纽约时报和华尔街日报等新闻机构提供,并由LDC(Linguistic Data Consortium)维护和发布。该数据集的命名源自其规模之大,其中"giga"表示十亿。它包含了数十亿个标记化的句子和数百万个新闻文章。

Gigaword数据集主要用于文本摘要任务,这是一种将长文本压缩成简洁摘要的任务。研究人员和开发人员可以使用该数据集来训练和评估自动文本摘要系统的性能。此外,Gigaword数据集还可用于其他文本处理任务,如机器翻译、信息检索和文本生成等。

该数据集中的新闻文章涵盖了各种主题和领域,包括政治、经济、科技、娱乐等。每篇文章都有其原始文本形式和经过摘要处理的简洁版本,这使得研究人员可以使用原始文本进行各种自然语言处理任务,或使用摘要版本进行文本摘要研究。

Gigaword数据集的规模和多样性使其成为研究和开发文本处理任务的重要资源,帮助推动了自然语言处理领域的发展。

获取方法:

方法1:注册LDC账号并加入组织获取数据,官网链接:LDC官网

方法2:关注公众号,回复Gigaword LDC语料小助手icon-default.png?t=N7T8https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值