NCBI疾病数据集是一个在提及和概念层面进行全面标注的数据集。
数据包含:
- 793篇摘要
- 2783个句子
- 6892个疾病mention
- 790个唯一疾病概念
– 医学主题词【Medical Subject Headings (MeSH®)】
– 人类孟德尔遗传学【Online Mendelian Inheritance in Man (OMIM®)】 - mention表中的91%都由一个疾病概念一一对应,分成训练集、验证集和测试集
数据标注:
- 14个标注人员
- 每个文档都有2个标注人员(随机分配)
- 3个标注阶段
- 检查所有语料的一致性
数据分布情况如下:
Classes | Train set | Test set | Dev set |
---|---|---|---|
Modifiers | 1292 | 264 | 218 |
Specific Disease | 2959 | 556 | 409 |
Composite Mentions | 116 |