知识图谱组队学习笔记 D1-用Windows Neo4j Destop 搭建简易知识图谱
学习时间: 7Days
学习进度:1/7
什么是知识图谱,Graph,schema
知识图谱:就是语义网络的知识库(Google 2012 -至今)
图(Graph):是由节点(Vertex)和边(Edge)来构成,多关系图一般包含多种类型的节点和多种类型的边。
图的举例:
- 节点Vertex——表示实体:人名,地名,公司,药物
- 边Edge——表示关系:朋友,坐落于,子公司,衍生药物
Schema :限定待加入知识图谱数据的格式;相当于某个领域内的数据模型,包含了该领域内有意义的概念类型以及这些类型的属性
Schema的举例:
- 电影Schema,地方商业Schema
知识图谱的价值
知识图谱是人工智能很重要的一个分支, 人工智能的目标为了让机器具备像人一样理性思考及做事的能力 -> 在符号主义的引领下,知识工程(核心内容即建设专家系统)取得了突破性的进展 -> 在整个知识工程的分支下,知识表示是一个非常重要的任务 -> 而知识图谱又恰恰是知识表示的重要一环
构建知识图谱
数据源:
对于垂直领域的知识图谱,数据来源有2种:
sequenceDiagram
数据源->>+数据: 业务本身数据(结构化)
数据源->>+数据: 网络上公开、抓取的数据(非结构化)
信息抽取的难点
难点在于处理非结构化数据,需要自然语言处理
构建知识图谱需要的技术
- 实体命名识别(Name Entity Recognition)——NER
- 提取出“Virgil's BBQ”,并标记实体类型为“Restarant”
- 提取实体“NYC”,并标记实体类型为 “Location”
- 关系抽取(Relation Extraction)——RE
- 实体“hotel”和“Hilton property”之间的关系为“in”
- “hotel”和“Time Square”的关系为“near”
- 实体统一(Entity Resolution)——ER
- “NYC”和“New York”指向同一个实体,需要合并
- 指代消解(Co