【知识图谱】王昊奋-第1课笔记-知识图谱概论

一、知识图谱与语义技术概述

1. 起源

人的思想是偏重关联的(Vannevar Bush)→以“链接”(超文本)为中心的系统Web→维基百科

2. 语义网

链接文本(Web of Texts, Web of Documents)链接数据(Web of Objects, Web of Data, Web of Things)

i.e. Web中有各种类型的事物,事物(Things not strings)之间有多种类型的连接

3.

谷歌知识图谱:搜索到的是对象(而不是string),从搜索结果中体现关联

Facebook兴趣图谱:结构化搜索(Graph Search)

4. 知识图谱的概念演化

知识图谱的发展得益于Web的发展(更多的是数据层面)。

5. 知识图谱可以做什么

(1)KG辅助搜索(手工众包、传统数据库格式转换、元组抽取、实体融合、链接预测、推理补全)

(2)KG辅助问答(机器人及IoT设备的智能化都依赖于背景知识库,eg., IBM Waston、Siri)

(3)KG辅助决策(政府决策领域Palantir、金融决策领域Kensho)

(4)KG辅助人工智能:常识推理(NLP领域关注)

6. 知识图谱的本质

7. Smart AI vs. Knowledgeable AI

二、典型知识库项目简介

1. CYC(目标最大的常识知识库)

2. Wordnet(普林斯顿大学,最著名的词典知识库,主要用于英文单词词义消歧义)

3. ConceptNet(MIT常识知识库,三元组组织)

4. Freebase(开源免费且允许商业化)

5. Wikidata(CC0完全自由协议,目标全球最大免费知识库)

6. DBPedia(30亿RDF三元组)

7. YAGO(德国马普研究所,集成Wikipedia、WordNet、GeoNames,增加时间维度和空间维度的属性描述)

8. BabelNet(类似于WordNet的多语言词典知识库)

9. NELL(CMU,采用互联网挖掘方法从Web上抽取三元组知识)

10. 微软Concept Graph(概念化)

11. OpenKG(中文知识图谱资源库,zhishi.me)

12. cnSchema(开放的中文知识图谱Schema)

三、知识图谱相关技术简介

1. 知识图谱的技术体系

2. 知识表示:怎样用计算机符号表示人脑中的知识,以及怎样通过符号之间的运算模拟人脑的推理过程

(1)资源描述框架(Resource Description Framework,RDF):Triple-based Assertion Model(基于三元组的断言模型)

(2)RDF Graph:Directed Labeled Graph(有向标记图)

(3)RDFS(RDF Schema):Simple Vocabulary and Schema

(4)RDF的序列化格式

(5)OWL:Web Ontology Language(网页本体语言)

(6)OWL extends RDF Schema

(7)SPARQL:RDF的查询语言,是一种子图匹配

(8)JSON-LD:JSON for linking data,适用于程序之间的数据交换格式

(9)RDFa,HTML5 MicroData:在网页中嵌入语义数据

(10)知识图谱的分布式表示:KG Embedding,从离散的符号表示到连续稠密的低维向量表示

3. 知识抽取

(1)目标:从非结构化文本数据到三元组、多元关系、模态知识等用于KR

(2)主要方法:知识工程(正则表达式、模板匹配、规则约束)、基于本体抽取(知识挖掘/推理)、基于模型抽取(SVM、Logistic Model、CRF、LSTM)

4. 知识存储

(1)知识比数据的结构复杂,知识存储需要综合考虑图的特点、知识的存储、索引和查询的优化问题。

(2)典型知识存储引擎分为基于关系数据库的存储和基于原生图的存储。实践中多为混合存储结构。

5. 知识问答:KQBA 基于知识库的知识问答

6. 知识推理:基于已知事实推出未知事实的计算过程

(1)搜索引擎实例:姚明的妻子的女儿的父亲?

(2)按解决方法分类:基于描述逻辑的推理、基于规则挖掘的推理、基于概率逻辑的推理、基于表示学习和神经网络的推理

(3)按推理类型分类:缺省推理、连续变化推理、空间推理、因果推理

(4)基于描述逻辑的推理:本体推理

(5)基于统计规则挖掘的推理

(6)基于表达学习的推理

7. 知识融合

(1)目标:在不同数据集中找出同一实体的描述记录,对不同数据源的实体信息进行整合,形成更加全面的实体信息

(2)典型工具:Dedupe、LIMES

8. 知识众包:Wikibase、Schema.org

四、典型应用案例

1. 医疗健康:Open PHACTS、中医药知识平台

2. 电商:阿里巴巴知识图谱

3. 企业知识图谱(SAP)

4. 金融:知识图谱支撑下的量化金融

5. 博物馆:大英博物馆

6. 新闻:BBC在伦敦奥运会中应用知识图谱

 

思考

1. KG是一个兼容性很强的方向,可以包含应用的东西非常广泛。(KR、ML、NLP、Web等)

2.现有的各领域开放知识库可以直接用吗?不同模型结构的知识库在进行知识融合时会不会很困难?

3.多库存储的难点在哪里?

4.对于行业KG,KBDA如何处理复杂句?

5.知识图谱在小冰、小娜中的应用。

6.离散型知识表示和连续型知识表示、分布式知识表示的关系、优劣。

7.知识图谱可以用于科研评价吗?(THU唐杰团队Aminer)

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值