1. Intro
1.1 任务理解
需要将医疗数据导入到 Neo4j 数据库,并成功建立节点、主要以疾病名称(name)为实体所延伸的栏位,例如:疾病的症状描述(Symptom)、好發群体(Age)、發生部位(part)…etc 。
建立而成的医疗知识图谱,将能帮助我们看到:各个疾病之间在好發群体、疾病發生部位、治疗药物等等的关係呈现。
2. 实战练习
2.1 数据读取
用 pandas 读入,原数据14336条内容,简单看下前五条是:阳痿、乙肝、癫痫、月经不调、颈椎病等。依照任务来看,他们是本次医疗知识图谱的『实体』,也是 build_graph.py
的第一步:create_node
。
編碼格式 GB18030 是跟簡體中文字符相關的編碼方式:
GB18030,全稱《信息技術 中文編碼字符集》,是中華人民共和國國家標準所規定的變長多位元組字元集。其對GB2312-1980完全向下相容,與GBK基本向下相容,並支援Unicode(GB 13000)的所有碼位。GB18030共收錄漢字70,244個。
(Source: 維基百科)
主要有以下特點:
- 採用變長多位元組編碼,每個字可以由1個、2個或4個位元組組成。編碼空間龐大,最多可定義161萬個字元。
- 完全支援Unicode,無需動用造字區即可支援中國國內少數民族文字、中日韓和繁體漢字以及emoji等字元。
2.2 实现步骤
首先需要辨识哪些栏位为实体的『Attribute(属性)』,哪些是作为实体与实体之间的『Relationship(