开源开放 | OpenKG组织发布第二批并更新近十个新冠知识图谱开放数据集


来源:开放知识图谱

本文约为6800字,建议阅读10+分钟

OpenKG 紧随疫情发展,继续发布新领域的新冠知识图谱,同时对已经发布的图谱进行持续不断的更新。

2020年2月11日,世界卫生组织宣布了新型冠状病毒肺炎官方正式命名为 COVID-19,21日国家卫健委决定与世界卫生组织保持一致,中文名称不变。随着关于新型冠状病毒病毒疫情的不断发展,有关疫情的各类信息也在不断更新。OpenKG 紧随疫情发展,继续发布新领域的新冠知识图谱,同时对已经发布的图谱进行持续不断的更新。

本次主要新增清华大学等单位构建的新冠健康图谱、浙江大学与华为云联合构建的病毒药物和病毒亲缘关系等图谱、河海大学等单位构建的新冠热点事件图谱,武汉科技大学等单位构建的新冠物资、IBM中国研究院等构建的流行病学图谱 (实例数据更新中)。同时来自同济大学、浙江大学、东南大学、海乂知信息科技、文因互联、小米人工智能实验室、复旦大学等分别更新了百科图谱科研图谱临床图谱英雄图谱等部分的数据。近期我们还将发布新冠防控图谱

OpenKG 发布的所有新冠知识图谱都基于统一的命名规范和语义格式,采用 CC-by SA 相似署名开放许可协议,供大家免费下载使用。持续更新,敬请关注!

此外,在 OpenKG 的知识图谱众包平台 OpenBase 上,我们还将展开新冠知识图谱众包,欢迎大家为高质量的中文知识图谱贡献力量。

新冠图谱专题链接:

http://openkg.cn/group/coronavirus

一、新冠百科图谱 V1.1

图谱链接:

http://www.openkg.cn/dataset/covid-19-baike

1.1 更新记录

  • 相较于第一版,第二版修改了数据爬取范围,通过重新抓取百科数据,提升了整个图谱数据规模。实体数扩展至54318,三元组数扩展至270807,关系数和属性数分别扩展至22和50个。

  • 对百科实体进行了类别推断,根据不同类别的实体特点,拓展了schema的属性部分。

  • 通过三元组和文本分析挖掘和构建了新的实体关系网络。

1.2 概要介绍

新冠百科图谱包括病毒、细菌、流行病、传染病等相关实体。作为新冠领域知识图谱的基础,图谱以病毒、细菌为主体,扩展了治疗,疾病等相关内容,通过了这些概念的百科知识,形成了新冠百科图谱。除了新冠相关的实体外还涵盖了过往疫情。

1.3 潜在应用

面向新冠相关术语的语义检索、智能问答,并可用于新冠相关文档的智能搜索和推荐。

后续工作中,将从百度百科,互动百科,中文维基百科,医学百科中进一步挖掘病毒,细菌,疾病,医学之间的关系。采用基于本体的信息抽取技术,扩充实体的属性信息。同时,完成与zhishi.me等通用知识图谱的链接。 

          

1.4 图谱可视化

二、新冠科研图谱 V1.1

图谱链接:

http://www.openkg.cn/dataset/covid-19-research

2.1 简介

  • 病毒分类图谱v2.0,根据最新ncbi网站内容更新了病毒族系相关的科研基础数据,其中以新冠病毒科为主。

  • 新冠基本信息图谱v1.0, 从新冠病毒的基因蛋白,宿主等相关信息出发构图。

  • 抗病毒药物图谱v1.0,依据抗病毒药物、病毒、病毒相关蛋白和宿主及宿主蛋白间的关系构建图谱。

  • 病毒亲缘关系图谱v1.0,整理短时间内COVID-19病毒株的变异方向与地理位置分布数据。

 

多个图谱各有侧重,为后续的图谱融合以及进一步研究提供数据支撑。 

2.2 概要介绍

在第一阶段的发布版本中,我们从病毒的生物学分类角度出发,以NCBI美国生物信息中心 Taxonomy 板块下的数据为基础,构建了一个病毒的族系网络——病毒分类图谱。该图谱具有较大的规模,其中实例的数量达20w以上,三元组的数量更是达到了190w+。但是其在分类及族系关系以外未引入其他信息,具有一定的局限。

通过与医药、生物学相关科研人员的交流及合作,从专业的角度了解病毒差异的来源以及区分/联系不同病毒的重要属性;同时,通过与华为云语音语义创新Lab及华为云医疗智能体团队开展合作,从不同科研内容角度展开多方面的工作,期望通过双方深入的交流及合作,共同构建并完善用于科研用途的知识图谱。

当前工作建立在不断完善schema的基础上, 通过梳理病毒、基因、蛋白、药物等相关概念,围绕新型冠状病毒、抗病毒药物等展开工作。从病毒的基因,蛋白,宿主以及核苷酸序列等相关信息出发,基于NCBI数据库中新冠病毒(COVID-19)相关数据,构建新冠基本信息图谱 V1.0。从抗病毒药物、Human Protein、Virus Protein、宿主等信息出发,基于DrugBank等数据库的数据,构建抗病毒药物图谱 V1.0。

除此之外,考虑到病毒流行学是重要的科研方向,我们从该角度出发,以Gisaid全球流感数据库所提供的实时新冠病毒sequence数据为基础,结合nextstrain对于新冠病毒基因组流行病学的分析及相关算法, 整理出了一个短期病毒突变的连接网络——病毒亲缘关系图谱v1.0。其中包含了地理,时间,变异度,突变的基因蛋白等信息,为后续的相关研究(病毒溯源)及图谱的融合提供支撑。

2.3 潜在应用

在后续对于其他属性进行补充与关联,扩充图谱之后,数据集可用于尝试以下应用:

  • 预测新病毒的生物学分类,新物种发现;

  • 预测病毒变异性;

  • 预测病毒热稳定性;

  • 预测病毒的易感群体、宿主;

  • 预测病毒的致病部位;

  • 预测病毒可导致的症状,可缓解症状的药物;

  • 潜在治疗的药物,如老药新用;

  • 预测病毒的传播途径、传播种类;

  • 预测可能与病毒蛋白相互作用的蛋白,发现新的蛋白靶点;

  • 针对新的蛋白靶点,进行药物开发;

  • 病毒溯源,病毒变异的分析与预测。

2.4 图谱可视化

2.4.1 病毒分类图谱 V1.1

parent关系用于连接Resource之间的层级关系,比如COVID-19病毒在其家族树种的上层结点是unclassified Betacoronavirus。通过parent关系可向上遍历家族树。

species、genus、family等关系用于直接连接病毒与其属类别、种类别结点。这样即可不通过遍历家族树直接找到其属。

broader用于连接不同的家族概念,比如Genus属就是Species种的一个更宽泛的家族概念。

虚线中的关系和概念是未来工作中会添加的关系和连接的实体类型。比如病毒的基因实体、蛋白质实体、宿主实体等等。


2.4.2 新冠基本信息图谱 V1.0(新增)

如下图可视化展示,express表示COVID-19与其表达基因间的关系,例如COVID-19表达ORF7B/ORF10/NS6等类型的基因;

translate表示基因与蛋白间的翻译关系,例如COVID-19的ORF8基因可翻译出ORF8 protein;另外,我们又用produce关系表示COVID-19可产生对应的蛋白。

为了进一步表示COVID-19和宿主的关系,我们使用host表示,目前图谱中的宿主实体主要是human和vertebrates。

   

2.4.3 抗病毒药物图谱 V1.0(新增

如下图可视化展示,effect 关系用于表示抗病毒药物对于病毒有一定效果,例如Lopinavir和 Abacavir 对Human  immunodeficiency virus 1有抗病毒效果,通过本关系可查看抗病毒药物和对应病毒间的联系;

produce关系可用于挖掘病毒与其所表达蛋白间的express关系,并可进一步挖掘不同病毒与同一类型蛋白间的关系,进而发现两个病毒间的间接关系;再通过某病毒与某抗病毒药物间关系,又可发现某抗病毒药物和另一病毒的间接关系;可以帮助发现对于某一类型病毒蛋白可能有作用的更多药物。

Interaction 和 binding 关系可以用于发现病毒蛋白与宿主蛋白间的相互作用,比如Human的ACE2 和SARS-COV的Spike glycoprotein间的interaction;之后可再补充某些药物和ACE2间的target关系,进而可以研究这些药物和SARS-COV的Spike glycoprotein间的作用.

通过belong to关系,可以明确哪些蛋白属于哪类宿主,这类宿主的哪些蛋白与病毒有相互作用关系等。

在属性方面,我们又进一步从DrugBank挖掘了这些信息(商品名、化学式,分子重量,indication等),作为drug实体的属性,使得研究者可以更直观的了解某drug的一些重要信息。之后我们会进一步完善补充更多关键实体的重要信息。

2.4.4 病毒亲缘关系图谱 V1.0(新增

如图所示,图中有Strain毒株,Branch分支,Country国家,State区域和City城市这些实体类型,其中地理位置与Strain毒株的连接通过from_country, from_division和from_location来标识。Country,State,City互相连接构成网络。

对于Strain毒株的属性,包括了AA变异,核苷酸突变,与上一分支的差异率等等信息,展示在图中的表格中。其中变异数据和差异率数据都是相对mutate_from_branch指示的Branch结点来说的,而Branch也相对上层的Branch,因此最终的Strain突变应当是整个树目录突变的总和。

2.5 数据来源及规模

数据来源:

  • NCBI中的Taxonomy板块(截止至2020.2.21)

    • https://www.ncbi.nlm.nih.gov/Taxonomy

  • 全球流感数据库(截止至2020.2.21)

    • https://www.gisaid.org

  • Nextstrain网站(截止至2020.2.21)

    • https://github.com/nextstrain/ncov

  • DrugBankVersion 5(截止至2019.08)

  • NCBI Taxonomy COVID-19数据(截止至2020.2.20)

  • VirHostNet1.1(截止至2019.01)

  • Virus Pathogen Database(截止至2020.02)

数据规模:

  • 病毒分类图谱 V1.1

    • 概念:16个                       

    • 实例:205500个

    • 对象属性:15个

    • 三元组数目:2140191个

  • 新冠基本信息图谱 V1.0

    • 概念:4个                       

    • 实例:470个

    • 对象属性:7个

    • 三元组数目:2096个

  • 抗病毒药物图谱 V1.0

    • 概念:5个                       

    • 实例:7845个

    • 对象属性:27个

    • 三元组数目:60662个

  • 新冠亲缘关系图谱 V1.0

    • 概念:6个

    • 实例:233个

    • 对象属性:15个

    • 三元组数目:2071个

三、新冠健康图谱 V1.0

图谱链接:

http://www.openkg.cn/dataset/covid-19-health

3.1 简介以及潜在应用

新冠健康图谱由清华大学和北京妙医佳健康科技联合构建,包含跟新冠肺炎相关的各类疾病、药物、症状、检查、全国各地接收新冠肺炎定点医院等信息。

潜在应用:流行病调查研究,基于图谱的新冠肺炎健康防护问答。

3.2 数据schema 

目前图谱只包含schema,实例知识会在后续逐步更新,敬请期待。

3.3 数据来源与规模

数据来源:

  • 《新型冠状病毒感染的肺炎诊疗方案》

  • 百度百科

  • 北京妙医佳健康科技集团有限公司

  • 卫生健康委

数据规模:

  • 概念:592个

  • 实例:7110个

  • 数值属性:104个

  • 对象属性:16个

  • 三元组数量:50405个

3.4 可视化的图谱样例

图例说明:方形代表概念(class),圆形代表实例(instance),悬浮到连线上显示的是两者的关系(relation)

  

四、新冠物资图谱 V1.0

图谱链接:

http://openkg.cn/dataset/covid-19-goods

4.1 简介以及潜在应用

新冠物资图谱包含防控新型冠状病毒所需要的各类物资,主要包括医用防护装备、日常防护用品、医用诊疗设备以及治疗用药。其中,医用防护装备包含了医用手套、口罩、隔离服等;日常防护用品包含洗手液、消毒用品等;医用诊疗设备包含常规检查设备和氧疗设备;治疗用药包含了《新型冠状病毒感染的肺炎诊疗方案》多个版本中的中、西药品。

示例问题:

问:在疫情期间,如果出门买菜,带哪种口罩比较好?

答:选择医用外科口罩、N95口罩、KN95口罩即可,但是目前医用口罩比较稀缺,建议供应给一线使用。

问:如果买不到N95和医用外科口罩怎么办?

答:如果没有适合的口罩,您可以使用医用护理口罩,建议戴2层,防护性能会好一些,使用完毕后一定要洗手,并将口罩外用塑料袋或者纸巾包住,丢入垃圾桶内。

4.2 数据来源与规模

数据来源:

  • 《新型冠状病毒感染的肺炎诊疗方案》

  • 《国家基本药物目录》

  • 《全国卫生行业医疗器械、仪器设备(商品、物资)分类与代码》

  • 红十字会官网 http://www.wuhanrc.org.cn/

  • 百度百科

数据规模:

  • 概念:165个

  • 实例:132个

  • 数值属性:56个

4.3 可视化样例

五、新冠流行病学图谱 V1.0

图谱链接:

http://openkg.cn/dataset/covid-19-epidemiology

 

5.1 简介以及潜在应用

新冠肺炎流行病学知识图谱包含了流行病学知识图谱Schema和基于此Schema定义的新冠肺炎资源实例。其中流行病学知识图谱Schema重点刻画流行病学的基本概念、流行病学调查等内容,未包含“流行病学研究方法”、“预防与控制策略”、“临床治疗与预后”等内容,需要在后续版本中与其他新冠肺炎知识图谱集成或连接。新冠肺炎资源实例包含了发生在2019年~2020年2月期间,COVID-19疫情中确诊患者的流行病学调查数据,这些数据来自中各省市卫健委公布的个案流调信息。

新冠流行病学图谱可以助力对流行病调查、溯源、密切接触者追踪,为医护人员和疾病防控人员提供技术支持,加速流行病调查研究。

        

5.2 数据schema

  • 传染源(动物,人,植物);

  • 传播途径(飞沫,接触,气溶胶,粪口,食物,水,土壤,医源性,垂直);

  • 传播模式(小范围暴露传播,扩散传播,散发,流行,暴发流行,超级传播);

  • 流行病学特征(发病率,死亡数,粗病死率,年龄分布,性别分布,时空分布,季节特征,暴露史即疫区疫源接触史);

  • 易感人群(儿童,老人,男人,女人);

  • 潜伏期;

  • 传染性(强,中,弱);

  • 感染来源(宿主,中间宿主);

  • 宿主(蝙蝠);

  • 中间宿主(穿山甲,果子狸);

  • 防控方式(限制人员流动,减少接触,洗手,戴口罩,隔离);

  • 病例基本信息(年龄,性别,身高,体重,暴露史,归属地,常住地,职业,种族);

  • 病例合并基础性疾病(高血压,糖尿病,心血管疾病,呼吸道传染,肿瘤,肥胖);

  • 病例临床表现(发热,咳嗽,干咳,乏力,呕吐,腹泻,肌肉酸痛,头痛,头晕,精神不振,胸闷,呼吸困难,呼吸窘迫);

  • 病例诊疗信息(感染时间,发病时间,就医时间,确诊时间,住院时间,医院名称,出院时间,死亡时间);

  • 消毒方式;

  • 微生物(细菌,病毒,真菌,放线菌,立克次氏体,支原体,衣原体,螺旋体);

  • 寄生虫(原虫,蠕虫,节肢动物);

  • 事件;

  • 疫情发展(拐点,基本控制,彻底控制,消除疫区)。

5.3 数据来源与规模

数据来源:

  • 王建华,刘民,《流行病学-第7版》人民卫生出版社;

  • 陈清,徐德忠,《流行病学复习考试指导》人民军医出版社;

  • 各地卫健委公开信息。

数据规模:

  • 概念:49 个

  • 实例:6  个

  • 数值属性:34个

  • 对象属性:19个

  • 三元组数量:374 个

5.4 可视化的图谱样例

六、新冠热点事件图谱 V1.1

图谱链接:

http://www.openkg.cn/dataset/covid-19-event

6.1 更新记录

  • 加入新的150份政府各部委的政策通告文件的事件抽取结果;

  • 添加schema中的政策事件的相关概念和属性;

  • 加入初期的事件类型标签。后期会进一步完善事件关键词抽取的结果。

6.2 简介以及潜在应用

从第一例出发到封城到各地响应等,重大事件脉络,以及相关时间等,和新冠百科、新冠科研、新冠临床、新冠防控、新冠英雄等均有关联, 并对新闻中的一些内容进行相关语义标注。

支持对新型冠状病毒的事件在时间上的正向和反向索引。并提供事件本身发展脉络的枚举。

支持查证事件的溯源。后期会加入对事件的存真鉴伪等高级特性。

6.3 数据schema

         

6.4 数据来源与规模

数据来源:

人民日报

http://activity.peopleapp.com/broadcast/?from=timeline

丁香医生

https://ncov.dxy.cn/ncovh5/view/pneumonia

腾讯

https://news.qq.com/zt2020/page/feiyan.htm

新浪微博

https://m.weibo.cn

数据规模:

  • 概念:4个                         

  • 实例:640个

  • 对象属性:17个

6.5 图谱可视化

    

七、新冠临床图谱 V1.1

图谱链接:

http://www.openkg.cn/dataset/covid-19-medical

 

7.1 更新记录

  • 根据最新的新冠肺炎诊疗方案第六版文件进行图谱模式更新及数据补充;

  • 完善schema中药及药品部分的属性和关系,中药新增属性药理作用、性味、性状、中药基原、适用症,药品新增子概念化学药、中成药,新增属性禁忌、适用症。

7.2 简介以及潜在应用

临床图谱从目前已有的规范文件入手,基于诊疗规范(流行病学+症状+实验室指标+治疗)、研究进展(测序、药物开发、疫苗)、发病统计(丁香园), 将研究进展与科研相关联。

图谱以新型冠状病毒(COVID-19)为核心延展至病毒、治疗方案、症状、方剂等各类概念,形成新冠临床知识图谱,可基于图谱进行知识问答。

7.3 数据来源与规模

数据来源:

  • 《新型冠状病毒感染的肺炎诊疗方案》

  • Wiki百科

  • 中医药知识服务平台 http://www.tcmkb.cn/ 

  • 医疗器械分类目录 https://db.yaozh.com/fenleimulu?from=www&position=index_hotdb 

  • https://github.com/liuhuanyong/QASystemOnMedicalKG

数据规模:

  • 概念:43 个

  • 实例:383 个

  • 数值属性:90 个

  • 对象属性:553 个

7.4 可视化样例

       

     

八、新冠英雄图谱 V1.1

图谱链接:

http://www.openkg.cn/dataset/covid-19-character

8.1 更新记录

  • 构建新的实体关系网络,如人物间的队友、同事关系等。

  • 根据目前的疫情发展情况实时更新热点人物,拓展图谱规模。

8.2 简介以及潜在应用

新冠英雄图谱包括了医疗专家组、因公殉职英雄、武汉当地和全国各地的意见领袖等,涉及生平事迹和基本属性,并与新冠百科、新冠科研、新冠临床、新冠防控等图谱中的一些概念或实体关联。

图谱以新冠病毒专家为核心延展至履历、成果、事件、战役等各类概念,形成新冠英雄知识图谱,可基于图谱进行英雄人物动态展示。

8.3 数据来源与规模

数据来源:

  • 百度百科

  • 微信公众号

  • 知网

  • 澎湃新闻

数据规模:

  • 概念:21个

  • 实例:747个

  • 数值属性:291个

  • 对象属性:1160个

目前图谱中共包含123人个人物,其中包括5位专家人员,27位因公殉职人员,医疗队代表人员91位。具体名单如下:

 


专家

因公殉职英雄

医疗队代表人物

人物名单

钟南山

刘大庆

张新忠

崔嵬

鲁翔

张文宏

曾文聪

于正洲

邓少华

吴红辉

李兰娟

何建华

梁医生

黄汉明

谢宏超

张定宇

苏莱曼·巴马丁

毛样洪

姜娜

….

张继先

宋英杰

陈在华

蒋金波

….


胡锋

程建阳

李弦

….


梁武东

马承武

孙训祥

….


尹祖川

李文亮

章良志

….


张辉

黄和艳

徐辉

….

总计(人)

5

27

91

 

8.4 可视化图谱样例

主要贡献者

 

总体协调人:

王昊奋,陈华钧 ,漆桂林

 

1. 新冠百科图谱

东南大学:李志强,秦旭,许茜,李林,殷春锁,吴亦珂,王然,吴天星,漆桂林

 

2. 新冠科研图谱

浙江大学:陈卓,吴杨,邵鑫,杨海宏,毕祯,叶宏斌,方尹,陈华钧

华为:郑毅,张雷,王鹏,章涛,刘登辉,徐迟,袁晶,乔楠,怀宝兴

 

3. 新冠健康图谱

清华大学:许斌,毛亦铭,阎婧雅,初凤灵,吴高晨,仝美涵,孙静怡,李子明,陈秋阳,李凯曼,郑晓飞

北京妙医佳健康科技集团有限公司:刘邦长,常德杰,闫广庆,季科

 

4. 新冠物资知识图谱

武汉科技大学:刘宇,徐航,向军毅,顾进广

 

5. 新冠流行病学图谱

IBM中国研究院:李静,王健,梅婧

 

6. 新冠事件知识图谱

河海大学:唐彦,张作为,王鲁威,张呈阳

小米人工智能实验室:刘作鹏,王献敏,彭茜 ,戴振

 

7. 新冠临床图谱

海乂知信息科技:蔡嘉辉,冯莉

文因互联:杜会芳

同济大学:王昊奋

 

8. 新冠英雄图谱

海乂知信息科技:王智凤,蔡嘉辉,李一斌

同济大学:王昊奋

 

9. 新冠防控图谱

武汉科技大学:胡丹阳,王萌,李秋,刘宇,顾进广

东南大学:张振志,胡润秋,徐毅男,张涛,史淼,郭文孜,黄红蓝

10.其他技术支援

OpenKG:尚忆秋

文因互联:耿新鹏

浙江大学:李娟

上海分布科技:胡凝

相关图谱的最新信息请以对应链接为准。

编辑:黄继彦

校对:林亦霖


点击“阅读原文”查看最新图谱资讯

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值