本系列是学习七月算法知识图谱课程的笔记。感觉自己完全就是一个托儿。前面七月算法机器学习,七月算法深度学习的笔记。现在又来了知识图谱课程的笔记。
1 why知识图谱
没有知识图谱,计算机看到一个文字的时候只能是一个文字。例如看到“Magdalena Carmen Frida Kahlo y Calderón”,不能知道其中文名称、简称、相关作品。
我们想要达到目标:things not strings
如果做到呢?深度学习+目前的知识图谱。
见过大世面的AI:需要大量数据,不可解释
知识渊博的AI:需要结构知识、推理逻辑,少量数据,可解释
相结合之后:就是真实的AI
可以用:学而不思则罔,思而不学则殆 来理解。
好的知识图谱需要具备学习能力和思考能力。
目前人们对于how why的需求越来越多,希望用知识图谱来解决。
2 知识图谱前世今生
- 语义网络
1960年的语义网络:是一些概念节点和节点之间的链接关系。更多的是is-a part-of这种关系。
缺点:没有标准,就不利于多个网络的融合。没有办法多节点和边做定义。
优点:简单,可以理解。
- 1980年引入本体概念
本体表示可以形式化化的:可以被计算机理解;是精确的:是共享的
- 1989年万维网
万维网最代表的技术是超文本标记语言。将文本、文档互联。
- 语义网
网页之间有链接,但不知道为什么链接
做到机器可理解
对象、数据、事物的相互链接
比较对象:之前是比较两个网页(描述商品信息的网页),有了语义网比较的是对象之间的属性值。常见的两种型号笔记本比较、两种型号的车比较。
- 2006年开放数据连接
开放数据之间的链接:更多的数据做关联
- 2012年google提出知识图谱
google提出知识图谱概念:是传统知识工程与大数据知识工程之间的分界线
传统知识工程:符号主义,本质是符号的操作和运算。解决了一些规则明确,应用封闭的问题。例如蛋白质结构的发现,数学定理的证明。依靠人工与专家获取结构化知识。
大数据知识工程:利用数据、算力、模型获取结构化的知识。
什么是知识图谱:知识图谱是一种基于图的数据结构。由点和边组成。每个节点表示一个实体,每条边表示一个关系。
知识有哪些类型:事实知识、概念知识、词汇知识、常识知识。
需要知道的开源知识图谱:
1 DBpedia 项⽬始于 2007 年,是⼀个多语⾔知识图谱,致⼒于从 Wikipedia ⻚⾯中获取结构化的知识供⼤众使⽤,可称作为数据库版本的Wikipedia。
2 CN-DBpedia是由复旦⼤学知识⼯场实验室(http://kw.fudan.edu.cn/ )研发并维护的⼤规模通⽤领域结构化百科,其前身是复旦GDM中⽂知识图谱 。
3 YAGO
4 CN-Probase是由复旦⼤学知识⼯场实验室研发并维护的⼤规模中⽂概念图谱,包含约1700万实体、27万概念和3300万isa关系。
5 WordNet
6 Cyc 常识知识库
7 ConceptNet 始于 2004 年,最早源于 MIT 媒体实验室,是⼀个⼤型的多语⾔常识知识库。
8 openkg.cn
3 知识图谱相关技术
1 业务理解
有哪些业务数据?
需要人工标注吗?成本多大?
需要专家接入吗?有专家吗?
根据业务数据特性选择存储的数据库
工程完成后,能给具体的场景带来实际好处吗?
回答:做不做?为什么做的问题
2 图谱设计
专家法:自上而下,总体规划
归纳法:单点切入,自下而上
混合法:大的方向上用专家法,小的场景下用归纳法
还可以用参照法,在缺乏知识图谱经验的情况下。 UMLS一体化医学语言系统,可以参考其相关关系的分类体系
3 知识抽取
4 知识表示
RDF/turtle:抽象能力弱,一些知识是需要附加时空条件的,不能表达
5 知识存储
https://zhuanlan.zhihu.com/p/63378196
6 知识链接
有了基础的知识图谱,想要加入更多的链接
同一个实体有不同的mention。
不同实体有相同的mention
7 知识融合
4 知识图谱应用案例
1 用于推荐
2 自动生成创意文案
3 智能搜索
4 智能问答
5 智能决策