[Datawhale Camp] Task02- 基于医疗知识图谱的问答系统操作介绍

1. Intro

1.1 任务理解

需要将医疗数据导入到 Neo4j 数据库,并成功建立节点、主要以疾病名称(name)为实体所延伸的栏位,例如:疾病的症状描述(Symptom)、好發群体(Age)、發生部位(part)…etc 。
建立而成的医疗知识图谱,将能帮助我们看到:各个疾病之间在好發群体、疾病發生部位、治疗药物等等的关係呈现。

2. 实战练习

2.1 数据读取

用 pandas 读入,原数据14336条内容,简单看下前五条是:阳痿、乙肝、癫痫、月经不调、颈椎病等。依照任务来看,他们是本次医疗知识图谱的『实体』,也是 build_graph.py 的第一步:create_node
在这里插入图片描述
編碼格式 GB18030 是跟簡體中文字符相關的編碼方式:

GB18030,全稱《信息技術 中文編碼字符集》,是中華人民共和國國家標準所規定的變長多位元組字元集。其對GB2312-1980完全向下相容,與GBK基本向下相容,並支援Unicode(GB 13000)的所有碼位。GB18030共收錄漢字70,244個。
(Source: 維基百科)

主要有以下特點:

  • 採用變長多位元組編碼,每個字可以由1個、2個或4個位元組組成。編碼空間龐大,最多可定義161萬個字元。
  • 完全支援Unicode,無需動用造字區即可支援中國國內少數民族文字、中日韓和繁體漢字以及emoji等字元。

2.2 实现步骤

首先需要辨识哪些栏位为实体的『Attribute(属性)』,哪些是作为实体与实体之间的『Relationship(

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值