【NLP公开数据集】 CoNLL-2003数据集

CoNLL-2003命名实体数据集[下载]是用于CoNLL-2003共享任务,由八个文件组成,涵盖两种语言:英语和德语。

每种语言都包含:训练集、开发集、测试集、无标签数据;

1.训练集:用于模型学习训练

2.开发集:用于模型学习过程中调参

3.测试集:用于结果的测试

注意:其中无标签数据较大【未标注数据包含1700万个token(英语)和1400万个token(德语)】,其他数据集都比较小

英文数据取自Reuters Corpus,该数据集由路透社从1996年8月到1997年8月的新闻故事组成;

具体的数据详细信息如下:

(1)个数据集中的文章、句子、词语数量

 文章数句子数词语数
训练集94614987203621
开发集216346651362
测试集231368446435

(2)各数据集中的实体数量分布情况

 地名人名组织名其他实体
训练集7140660063213438
开发集183718421341922
测试集166816171661702

数据样例如下(假设实体没有循环和交叉):

词       词性   词块   实体
U.N.     NNP   I-NP  I-ORG
official NN    I-NP  O
Ekeus    NNP   I-NP  I-PER
heads    VBZ   I-VP  O
for      IN    I-PP  O
Baghdad  NNP   I-NP  I-LOC
. . O O

德文数据取自ECI Multilingual Text Corpus,该数据集由多种语言组成

具体的数据详细信息如下:

(1)个数据集中的文章、句子、词语数量

 文章数句子数词语数
训练集55312705206931
开发集201306851362
测试集155316051943

(2)各数据集中的实体数量分布情况

 地名人名组织名其他实体
训练集4363277324272288
开发集1181140112411010
测试集10351195773670

参考资料:

[1]Introduction to the CoNLL-2003 Shared Task: Language-Independent Named Entity Recognition

[2]Language-Independent Named Entity Recognition (II)

 

  • 7
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值