知识图谱

KG

知识图谱的系统工程观
知识图谱从哪里来:实体关系抽取的现状与未来
刘焕勇 - 个人主页:KG 学习资料、工具、开源项目

难点:协调准确率和效率、平衡自动化方法和人工参与

  • 知识图谱构建主要分为自顶向下(top‑down)与自底向上(bottom‑up)两种构建方式。
    自顶向下构建方式需要先定义好本体(Ontology或称为Schema),再基于输入数据(百科类网站等结构化数据源)完成信息抽取到图谱构建的过程。该方法更适用于专业知识方面图谱的构建,比如企业知识图谱,面向领域专业用户使用。
    自底向上构建方式 则是从开放的Open LinkedData中抽取置信度高的知识,或从非结构化文本中抽取知识,完成知识图谱的构建。该方式更适用于常识性的知识,比如人名、机构名等通用知识图谱的构建。
    在这里插入图片描述
    在这里插入图片描述

(〇)本体构建

  • 通常有人工、自动和半自动这 3 种构建方法.
    半自动构建本体的方法,使用统计方法和无监督OpenIE方法得到本体知识,结合其他知识图谱的本体知识,在专家的指导下构建出了本体,并在众包半自动语义标注过程中进行了完善.
    本体模型设计图

  • 【1】 知识图谱本体层理解及利用Protégé进行知识图谱本体层(Schema)的构建

  • 【2】 面向垂直领域的OpenIE图谱构建技术
    在这里插入图片描述

语义标注

  • 主要包括本体技术、自然语言处理等技术.
  • 语义标注可以分为 手工标注、半自动标注 和 自动标注 三类.
    半自动标注是由标注人员指定网页或者网页中的文本片段,然后由标注人员选择合适的本体概念(或属性)或者由系统自动显示可选的本体概念(或属性),最后生成并保存语义标注结果.
  • 语义标注可以分为 嵌入式存储 和 独立存储 两类.
    嵌入式存储方式是指将标注结果嵌入在原始网页中,标注格式可以是 JSON-LD、MicroData、RDFa等,例如 Google 的结构化数据标记辅助工具;
    独立存储方式 是指将标注结果保存在外部存储中,可以保存到文件中,也可以保存到数据库中,例如开源语义标注工具 Pundit,它可以对任何网页进行标注,标注结果将保存在标注系统后端的数据库中.

(一)信息抽取

信息抽取包括实体抽取、关系抽取和属性抽取.

特征选择
  • 通过分词算法对文本中的词汇进行提取,TF-IDF算法进行特征选择
实体抽取的质量

准确率、精确率、召回率

  • 准确率:所有的预测正确(正类负类)的占总的比重。
  • 精确率:也叫查准率,即正确预测为正的占全部预测为正的比例(不准错,宁愿漏检,也不能让现有的预测有错)。
  • 召回率:即正确预测为正的占全部实际为正的比例(不准漏,宁可错杀一千,也不放过一个)。
  • F-Score:召回率与精确率的博弈

(二)知识融合

(三)知识加工

Python实践

基于python的Django框架和Neo4j的知识图谱可视化
知识图谱neo4j—利用python进行知识入库
Python neo4j建立药品知识图谱

-------------- Neo4j KG构建

【1】 Neo4j的使用① | 基础用法
【2】 Neo4j中文手册(笔记)
【3】 Neo4j 桌面版的使用教程
【4】 Neo4j下载安装以及Neo4j浏览器详细说明
【5】 Neo4j教程
【6】 Neo4j 删除节点、关系,和所有节点
【7】 Neo4j 学习笔记:创建、更新、删除节点/关系/属性

-------------- Neo4j KG查询

【1】 (Cypher语句)基础查询:

MATCH (n) return(n)
MATCH (n{name: '养护难度'})-[:`划分`]->(end) return end
MATCH (a:Person {name:'Tom Hanks'})-[:ACTED_IN]->(m:Movie) RETURN a,m
MATCH (a:Person {name:'Tom Hanks'})-[:ACTED_IN]->(m)<-[:ACTED_IN]-(c) RETURN c.name
#  寻找可以将Tom Hanks介绍给Tom Cruise的人
MATCH (a:Person {name:'Tom Hanks'})-[:ACTED_IN]->(m)<-[:ACTED_IN]-(coActors),
(coActors)-[:ACTED_IN]->(m2)<-[:ACTED_IN]-(other:Person {name:'Tom Cruise'})
RETURN a, m, coActors, m2, other

【2】
1.Match(匹配) 2. Create(创建) 3. Delete(删除) 4. Merge(合并) 5. List(列表) 6. Where(条件过滤) 7. Match进阶 8. Recommend(推荐)

虚拟教研室、学科领域

【1】【2】清华大学 - 基础教育知识图谱系统 EduKG
【3】 国防科技大学 刘燚老师 笔记。双链笔记、富文本RTF
【4】 一个博客:【十七,教育知识图谱的概念模型构建(EKGCM)】【十四,教育知识图谱的概念模型与构建方法研究】

业界应用

政策智能分析详解,达观RPA、NLP、知识图谱技术多场景落地应用

在这里插入图片描述
在这里插入图片描述

文献笔记

清华大学 - 四步法:一种准确而高效的领域知识图谱构建方法
步骤 1:领域本体构建;
步骤 2:众包半自动语义标注;
步骤 3:外源数据补全;
步骤 4:信息抽取.

  • 步骤 1、2 是知识图谱的骨架部分,是基础,也是核心.两个步骤相互迭代,本体构建指导标注,标注中遇到的新的情况又可以反向改进本体结构.
    —— 保证了知识图谱的准确性.
  • 步骤 3、4 是知识图谱的血肉部分.也相互迭代,步骤 4 可以利用步骤 3 中得到的关系和实体从文本中进行信息抽取,步骤 3 也可以利用步骤 4 中抽取出的新的实体和关系,将其他来源的结构化数据中的相关知识补充到知识图谱中.
    —— 保证了知识图谱的覆盖率和构建的高效性.

刘焕勇 知识图谱入门
1)构建前:知识图谱构建中的本体设计、关键流程与开源本体工具总结。
2)构建中:图谱构建中的数据采集、文本解析处理、数据分析常用工具总结。当然还会要有知识抽取(实体识别、实体关系抽取、事件抽取)的一篇(Link)
3)构建后:知识图谱存储、融合、可视化、图表示计算与搜索常用工具总结。

Existing KG

  • 通用知识图谱:DBpedia、YAGO、Freebase、Google 的 Knowledge
    Graph、百度的“知心”、搜狗的“知立方”

领域知识图谱

其他

Logseq双链笔记
  • 【1】 双链笔记软件推荐:Logseq 和它的五种用法
  • 【2】 Logseq小白系列教程入门篇一
  • 【3】 logseq 使用 tips
  • 【4】 极简Logseq优雅上手指南

TODODOINGNOWLATER
WAITINGCANCELLED/CANCELEDDONE

date picker

----------------------------- history -----------------------------

【1】 py2neo Graph连接Neo4j:用户名、密码
【2】 Neo4j查看当前用户名密码
【3】 Neo4j 忘记用户密码

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值