概述
作者通过对PubMed上2011年初到2015年底收录的有关大肠癌的文章进行文本挖掘,采用了共现和引用两种方式构建了药物-症状-疾病三元组,从而挖掘出可能存在的药物-疾病关系,并通过CTD和KEGG两个医药领域数据库进行验证,分析出两种不同方法挖掘出的隐含关系的特征。
文章使用的医学领域知识库
UMLS
UMLS(Unified Medical Language System)是美国国立医学图书馆(著名的医学文献数据库Medline也是该图书馆负责管理的)维护建设的一套医学术语系统。该系统提供了受控词表(meta thesaurus)、语义网(semantic web)、信息来源图(information sources map)、医学类辞典(specialist lexicon)四种信息组织的形式,其中部分资源(如specialist lexicon)是开放获取的,部分资源需要在网站上申请一个UMLS license,约三个工作日之内会得到答复,是否申请成功,成功后即可下载全部资源,该资源提供了一个使用java开发的检索工具,下载完成后按步骤安装即可。
在文章中,作者使用自己研发PKDE4J的工具对文献当中的实体进行抽取,本次仅抽取疾病、药物、症状三个分类下的实体,并将这些实体和UMLS中的实体进行比对,留下真正存在的实体(因为实体抽取工具的结果不是完全准确)。
KEGG
KEGG(Kyoto Encyclopedia of Genes and Genomes)同样是大型的医学信息数据库,该数据库保存了大量基因层面地生物信息,同样也包括了一些已经经过验证的医学实体间的关系。
在文章中该数据库用于检查那些被发现的药物疾病关系是否是真实存在的
CTD
CTD(Comparative Toxicogenomics Database)数据库中存储了医学领域如基因、环境、化学药物、蛋白质之间的相互作用,其中包含了一些未经验证的的相互作用关系。在网站上可下载相应的实体和链接关系。
文章中将抽取的关系和CTD中的关系进行匹配,匹配结果和KEGG做对比,用于评估基于引用挖掘的药物-疾病关系是否可能存在
PubMed
PubMed 是一个提供生物医学方面的论文搜寻以及摘要,并且免费搜寻的数据库。它的数据库来源为MEDLINE。其核心主题为医学,但亦包括其他与医学相关的领域,像是护理学或者其他健康学科。
本次数据集的获取
论文中作者在PubMed上使用大肠癌作为检索词限制2010年1月-2015年12月,收集到79,811篇文