CoNLL-2003命名实体数据集[下载]是用于CoNLL-2003共享任务,由八个文件组成,涵盖两种语言:英语和德语。
每种语言都包含:训练集、开发集、测试集、无标签数据;
1.训练集:用于模型学习训练
2.开发集:用于模型学习过程中调参
3.测试集:用于结果的测试
注意:其中无标签数据较大【未标注数据包含1700万个token(英语)和1400万个token(德语)】,其他数据集都比较小
英文数据取自Reuters Corpus,该数据集由路透社从1996年8月到1997年8月的新闻故事组成;
具体的数据详细信息如下:
(1)个数据集中的文章、句子、词语数量
文章数 | 句子数 | 词语数 | |
训练集 | 946 | 14987 | 203621 |
开发集 | 216 | 3466 | 51362 |
测试集 | 231 | 3684 | 46435 |
(2)各数据集中的实体数量分布情况
地名 | 人名 | 组织名 | 其他实体 | |
训练集 | 7140 | 6600 | 6321 | 3438 |
开发集 | 1837 | 1842 | 1341 | 922 |
测试集 | 1668 | 1617 | 1661 | 702 |
数据样例如下(假设实体没有循环和交叉):
词 词性 词块 实体
U.N. NNP I-NP I-ORG
official NN I-NP O
Ekeus NNP I-NP I-PER
heads VBZ I-VP O
for IN I-PP O
Baghdad NNP I-NP I-LOC
. . O O
德文数据取自ECI Multilingual Text Corpus,该数据集由多种语言组成
具体的数据详细信息如下:
(1)个数据集中的文章、句子、词语数量
文章数 | 句子数 | 词语数 | |
训练集 | 553 | 12705 | 206931 |
开发集 | 201 | 3068 | 51362 |
测试集 | 155 | 3160 | 51943 |
(2)各数据集中的实体数量分布情况
地名 | 人名 | 组织名 | 其他实体 | |
训练集 | 4363 | 2773 | 2427 | 2288 |
开发集 | 1181 | 1401 | 1241 | 1010 |
测试集 | 1035 | 1195 | 773 | 670 |
参考资料:
[1]Introduction to the CoNLL-2003 Shared Task: Language-Independent Named Entity Recognition
[2]Language-Independent Named Entity Recognition (II)