KG
知识图谱的系统工程观
知识图谱从哪里来:实体关系抽取的现状与未来
刘焕勇 - 个人主页:KG 学习资料、工具、开源项目
难点:协调准确率和效率、平衡自动化方法和人工参与
- 知识图谱构建主要分为自顶向下(top‑down)与自底向上(bottom‑up)两种构建方式。
自顶向下构建方式需要先定义好本体(Ontology或称为Schema),再基于输入数据(百科类网站等结构化数据源)完成信息抽取到图谱构建的过程。该方法更适用于专业知识方面图谱的构建,比如企业知识图谱,面向领域专业用户使用。
自底向上构建方式则是从开放的Open LinkedData中抽取置信度高的知识,或从非结构化文本中抽取知识,完成知识图谱的构建。该方式更适用于常识性的知识,比如人名、机构名等通用知识图谱的构建。
(〇)本体构建
-
通常有人工、自动和半自动这 3 种构建方法.
半自动构建本体的方法,使用统计方法和无监督OpenIE方法得到本体知识,结合其他知识图谱的本体知识,在专家的指导下构建出了本体,并在众包半自动语义标注过程中进行了完善.
-
【1】 知识图谱本体层理解及利用Protégé进行知识图谱本体层(Schema)的构建
-
【2】 面向垂直领域的OpenIE图谱构建技术
语义标注
- 主要包括本体技术、自然语言处理等技术.
- 语义标注可以分为 手工标注、半自动标注 和 自动标注 三类.
半自动标注是由标注人员指定网页或者网页中的文本片段,然后由标注人员选择合适的本体概念(或属性)或者由系统自动显示可选的本体概念(或属性),最后生成并保存语义标注结果. - 语义标注可以分为 嵌入式存储 和 独立存储 两类.
嵌入式存储方式是指将标注结果嵌入在原始网页中,标注格式可以是 JSON-LD、MicroData、RDFa等,例如 Google 的结构化数据标记辅助工具;
独立存储方式是指将标注结果保存在外部存储中,可以保存到文件中,也可以保存到数据库中,例如开源语义标注工具 Pundit,它可以对任何网页进行标注,标注结果将保存在标注系统后端的数据库中.
(一)信息抽取
信息抽取包括实体抽取、关系抽取和属性抽取.
特征选择
- 通过分词算法对文本中的词汇进行提取,TF-IDF算法进行特征选择
实体抽取的质量
- 准确率:所有的预测正确(正类负类)的占总的比重。
- 精确率:也叫查准率,即正确预测为正的占全部预测为正的比例(不准错,宁愿漏检,也不能让现有的预测有错)。
- 召回率:即正确预测为正的占全部实际为正的比例(不准漏,宁可错杀一千,也不放过一个)。
- F-Score:召回率与精确率的博弈
(二)知识融合
(三)知识加工
Python实践
基于python的Django框架和Neo4j的知识图谱可视化
知识图谱neo4j—利用python进行知识入库
Python neo4j建立药品知识图谱
-------------- Neo4j KG构建
【1】 Neo4j的使用① | 基础用法
【2】 Neo4j中文手册(笔记)
【3】 Neo4j 桌面版的使用教程
【4】 Neo4j下载安装以及Neo4j浏览器详细说明
【5】 Neo4j教程
【6】 Neo4j 删除节点、关系,和所有节点
【7】 Neo4j 学习笔记:创建、更新、删除节点/关系/属性
-------------- Neo4j KG查询
【1】 (Cypher语句)基础查询:
MATCH (n) return(n)
MATCH (n{name: '养护难度'})-[:`划分`]->(end) return end
MATCH (a:Person {name:'Tom Hanks'})-[:ACTED_IN]->(m:Movie) RETURN a,m
MATCH (a:Person {name:'Tom Hanks'})-[:ACTED_IN]->(m)<-[:ACTED_IN]-(c) RETURN c.name
# 寻找可以将Tom Hanks介绍给Tom Cruise的人
MATCH (a:Person {name:'Tom Hanks'})-[:ACTED_IN]->(m)<-[:ACTED_IN]-(coActors),
(coActors)-[:ACTED_IN]->(m2)<-[:ACTED_IN]-(other:Person {name:'Tom Cruise'})
RETURN a, m, coActors, m2, other
【2】
1.Match(匹配) 2. Create(创建) 3. Delete(删除) 4. Merge(合并) 5. List(列表) 6. Where(条件过滤) 7. Match进阶 8. Recommend(推荐)
虚拟教研室、学科领域
【1】【2】清华大学 - 基础教育知识图谱系统 EduKG
【3】 国防科技大学 刘燚老师 笔记。双链笔记、富文本RTF
【4】 一个博客:【十七,教育知识图谱的概念模型构建(EKGCM)】 ;【十四,教育知识图谱的概念模型与构建方法研究】
业界应用
政策智能分析详解,达观RPA、NLP、知识图谱技术多场景落地应用
文献笔记
清华大学 - 四步法:一种准确而高效的领域知识图谱构建方法
步骤 1:领域本体构建;
步骤 2:众包半自动语义标注;
步骤 3:外源数据补全;
步骤 4:信息抽取.
- 步骤 1、2 是知识图谱的骨架部分,是基础,也是核心.两个步骤相互迭代,本体构建指导标注,标注中遇到的新的情况又可以反向改进本体结构.
—— 保证了知识图谱的准确性. - 步骤 3、4 是知识图谱的血肉部分.也相互迭代,步骤 4 可以利用步骤 3 中得到的关系和实体从文本中进行信息抽取,步骤 3 也可以利用步骤 4 中抽取出的新的实体和关系,将其他来源的结构化数据中的相关知识补充到知识图谱中.
—— 保证了知识图谱的覆盖率和构建的高效性.
刘焕勇 知识图谱入门
1)构建前:知识图谱构建中的本体设计、关键流程与开源本体工具总结。
2)构建中:图谱构建中的数据采集、文本解析处理、数据分析常用工具总结。当然还会要有知识抽取(实体识别、实体关系抽取、事件抽取)的一篇(Link)。
3)构建后:知识图谱存储、融合、可视化、图表示计算与搜索常用工具总结。
Existing KG
- 通用知识图谱:DBpedia、YAGO、Freebase、Google 的 Knowledge
Graph、百度的“知心”、搜狗的“知立方”
领域知识图谱
其他
Logseq双链笔记
TODO
、DOING
、NOW
、LATER
WAITING
、CANCELLED/CANCELED
、DONE
date picker
----------------------------- history -----------------------------
【1】 py2neo Graph连接Neo4j:用户名、密码
【2】 Neo4j查看当前用户名密码
【3】 Neo4j 忘记用户密码