健康工作50年(4) - 搭建知识图谱

    从寻医问药、百科名医等网站上看了疾病相关的信息,包含说明、病因、症状、并发症等等信息,如果利用这些信息?尝试一下知识图谱来解决。

    一开始使用了 Apache 的 jena,花了几天,弄懂了基本原理,但使用起来还是比较费劲。有试用了neo4j,感觉比jena还用一点,先用neo4j吧。

    准备数据:

  1. 抓取网页,使用到了 scrapy
  2. 网页数据提取,使用到了xpath
  3. 数据存储使用到redis 和 mongodb
  4. 花了几天时间,整理 disease、symptom、cause、drug、check等医疗知识,大约40多万条,他们之间的关系大约500万条。
  5. 一开始导入neo4j,花了几十个小时,后面查资料,可以通过 neo4j-admin.bat import --mode=csv 导入,几分钟就行了

    第一个查询: MATCH p=(d:Disease)-[r:cause_highlight]->(h:Highlight) WHERE h.name = '吸烟' RETURN p LIMIT 2500

    结果如下图:

    吸烟与疾病

    从关联关系来看,吸烟对身体还是有很多害处的,肺癌、心脏病、冠心病

转载于:https://my.oschina.net/u/3969023/blog/3053213

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
转自CCF:https://dl.ccf.org.cn/lecture/lectureDetail?id=4663480272078848。 张勇,剑桥大学博士后。 摘要:健康医疗大数据是健康医疗活动的产物,同时也是进行健康医疗业务优化和辅助决策的基础。健康医疗大数据分散在多个主体管理的多个系统中,所以在应用健康医疗大数据的时候往往需要先进行数据釉合。然而由于生成数据的系统所采用的标准或规范不同,不同来源的数据之间经常存在数据不一致的情况,同时由于应用水平等问题,数据的质量也存在较大问题。数据不一 致和数据质量等问题大大阻碍了数据融合的效率和效果。知识图谱作为作为一种灵活的数据模型,通过一张图来集成所有相关的数据,同时利用对齐等技术来解决数据中存在的问题。本报告将从健康医疗大数据融合的数据模型、过程、工具和应用的角度来介绍如何应用知识图谱来进行健康医疗大数据融合。我们把健康医疗知识图谱分为概念图谱和实例图谱,定义了各 自的数据模型,然后分别介绍了各自的建立过程,以及两者之间如何建立关联。我们提出了“ 医在回路 ”的概念,对医生在构建健康领域知识图谱中的角色和职责进行了定义。基于这些数据模型,我们研发了健康知识图谱构建工具 HKGB 。该工具是一个易于扩展的、跨语言的、智能的知识图谱构建平台。基于该平台,我们构建了面向心血管疾病的知识图谱。最后本报告介绍了健康医疗知识图谱的应用情况。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值