CoNLL-2003命名实体数据集[下载]是用于CoNLL-2003共享任务,由八个文件组成,涵盖两种语言:英语和德语。
每种语言都包含:训练集、开发集、测试集、无标签数据;
1.训练集:用于模型学习训练
2.开发集:用于模型学习过程中调参
3.测试集:用于结果的测试
注意:其中无标签数据较大【未标注数据包含1700万个token(英语)和1400万个token(德语)】,其他数据集都比较小
英文数据取自Reuters Corpus,该数据集由路透社从1996年8月到1997年8月的新闻故事组成;
具体的数据详细信息如下:
(1)个数据集中的文章、句子、词语数量
文章数 | 句子数 | 词语数 | |
训练集 | 946 | 14987 | 203621 |