【NLP公开数据集】 CoNLL-2003数据集

CoNLL-2003命名实体数据集[下载]是用于CoNLL-2003共享任务,由八个文件组成,涵盖两种语言:英语和德语。

每种语言都包含:训练集、开发集、测试集、无标签数据;

1.训练集:用于模型学习训练

2.开发集:用于模型学习过程中调参

3.测试集:用于结果的测试

注意:其中无标签数据较大【未标注数据包含1700万个token(英语)和1400万个token(德语)】,其他数据集都比较小

英文数据取自Reuters Corpus,该数据集由路透社从1996年8月到1997年8月的新闻故事组成;

具体的数据详细信息如下:

(1)个数据集中的文章、句子、词语数量

  文章数 句子数 词语数
训练集 946 14987 203621
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值