java测试开发面试题总结--医疗领域知识图谱

urlib爬虫

1、urlib组件可以抓取网页,urlib是一个url处理包,这个包中集合了一些处理url的模块
2、用urlib请求后可以返回的内容再解码之后可以得到一个html网页

这个项目是一个关于知识图谱的项目,知识图谱相当于是一个存储结构话数据的数据库,里面的数据都是以三元组的形式存储的,所以这个项目也可以说是做的一个存储医疗领域相关数据的数据库。

这个项目的主要流程是:
1、到一个与医疗相关的专业网站爬取数据,我们爬取的是以某种病症的相关信息,比如这种疾病是浅表性胃炎,然后这个页面上相关的信息就有关于这个疾病的病症,应该吃什么药,应该吃什么食物或者是少吃什么食物,以这种方式,我们爬取了大概有8000多种疾病以及这些疾病的相关信息。

2、然后对这些信息进行一个分类,分类是按照实体的类别进行分类的,比如把食物归为一类,药品归为一类,病症归为一类等;此外,我们还会创建几类关系,比如食物的有益吃,或者不益吃的关系,病症有病症的关系。

3、把疾病的信息以json的格式存入到MongoDB中,一种疾病有各种信息,包括这种疾病的属性比如:名称,疾病简介,病因,预防措施等,另外还包括它和其他实体的关系,比如 吃什么药这个关系,,所对应的 一些药品。

4、构建知识图谱,首先是在Neo4j中导入实体,对于疾病实体我们还需要与他们的属性一起导入,然后再导入实体与实体之间的关系,让实体连接起来,即可构建好知识图谱

5、对于这个知识图谱,我们直接可以用Neo4j中的Cypher语言进行查询,比如,可以直接查询浅表性胃炎应该吃的药物,数据库就会直接返回相应药物的结果

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值