内容目录
1.知识图谱基本概念
最早起源于Google Knowledge Graph。知识图谱本质上是一种语义网络。其结点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系。
知识图谱概念演化
知识图谱本质
Web视角
像建立文本之间的超链接一样,建立数据之间的语义链接,并支持语义搜索。
NLP视角
怎样从文本中抽取语义和结构化数据
KR视角
怎样利用计算机符号来表示和处理数据
AI视角
怎样利用知识库来辅助理解人的语言
DB视角
用图的方式去存储知识
要构建一个好的知识图谱需要兼容并包,综合利用好KR、NLP、Web、ML、DB等多方面的方法和技术。
人的大脑依赖所学的知识进行思考、逻辑推理、理解语言。
深度学习强调学习过程,将其比作聪明的AI,主要过程为感知、识别、判断。
知识图谱强调推理过程,将其比作有学识的AI,主要过程为思考、语言、推理。
知识图谱功能
1 ) KG辅助搜索。Web的理想是万物的链接,搜索的理想是事物的搜索。
2 ) KG辅助问答。机器人及IoT设备的智能化:给万物都挂接一个背景知识库。对话式的信息获取更加需要精确度和可靠度,知识图谱对于提升用户体验更加不可少。
3 ) KG辅助决策。
4 ) KG辅助AI:常识推理。
当一个人听到或看到一句话的时候,他使用自己所有的知识和智能去理解。这不仅包括语法,也包括他的词汇知识,上下文知识,更重要的,是对相关事物的理解。——Terrry Winograd(自然语言理解系统SHRDLU 作者)
2.知识库相关项目
1 ) CYC
Cyc是在1984年由Douglas Lenat开始创建。最初的目标是要建立人类最大的常识知识库。典型的常识知识如"Every tree is a plant","Plants die eventually"等。
Cyc知识库主要由术语Terms和断言Assertions组成。Terms包含概念、关系和实体的定义。Assertions用来建立Terms之间的关系,这既包含事实Fact描述,也包含规则Rule的描述。
http://www.cyc.com/
2 ) WordNet
WordNet是最著名的词典知识库,主要用于词义消歧。WordNet由普林斯顿大学认识科学实验室从1985年开始开发。
WordNet主要定义了名词、动词、形容词和副词之间的词义关系。例如名词之间的上下位关系(如:“猫科动物”是“猫”的上位词),动词之间的蕴含关系(如:“打鼾”蕴含着“睡眠”)等。
http://wordnet.princeton.com/
3 ) ConceptNet
ConceptNet是常识知识库。最早源于MIT媒体实验室的Open Mind Common Sense(OMCS)项目。OMCS项目是由著名人工智能专家Marvin Minsky于1999年建议创立。
ConceptNet主要依靠互联网众包、专家创建和游戏三种方法来构建。新版本导入大量开放的结构化数据,如DBPedia、Wikinary,Wordnet等。
ConceptNet知识库以三元组形式的关系知识构成。ConceptNet采用了非形式化、更加接近自然语言的描述,而不是像Cyc那样采用形式化的谓词逻辑。
http://www.conceptnet.io/
4 ) Freebase
完全免费并允许商业化的开放许可协议。通过开源免费吸引用户贡献数据,增值的应用及技术服务收费。
http://www.freebase.com/
5 ) Wikidata
目标是构建全世界最大的免费知识库,采用CC0完全自由许可协议。
http://www.wikidata.org
6 ) DBPedia
DBPedia是早期的语义网项目。DBPedia意指数据库版本的Wikipedia,是从Wikipedia抽取出来的链接数据集。DBPedia采用了一个较为严格的本体,包含人、地点、音乐、电影、组织机构、物种、疾病等类定义。
此外,DBPedia还与Freebase,OpenCYC、BioRDF等多个数据集建立了数据链接。DBPedia采用RDF语义数据模型,总共包含30亿RDF三元组。
http://dbpedia.org
7 ) YAGO
YAGO是由德国马普研究所研制的链接数据库。YAGO主要集成了Wikipedia、WordNet和GeoNames三个来源的数据。YAGO将WordNet的词汇定义与Wikipedia的分类体系进行融合集成,使得YAGO具有更加丰富的实体分类体系。
YAGO还考虑了时间和空间知识,为很多知识条目增加了时间和空间维度的属性描述。目前,YAGO 包含1.2亿三元组知识。YAGO是IBM Watson的后端知识库之一。
http://mpii.de/yago
8 ) Babelnet
BabelNet是类似于WordNet的多语言词典知识库。BabelNet的目标是解决WordNet在非英语语种数据缺乏的问题。BabelNet采用的方法是将WordNet词典与Wikipedia百科集成。
首先建立WordNet中的词与Wikipedia的页面标题的映射,然后利用Wikipedia中的多语言链接,再辅以机器翻译技术,来给WordNet增加多种语言的词汇。
http://babelnet.org/
9 ) NELL
NELL(Never-Ending Language Learner)是卡内基梅隆大学开发的知识库。NELL主要采用互联网挖掘的方法从Web自动抽取三元组知识。
NELL的基本理念是:给定一个初始的本体(少量类和关系的定义)和少量样本,让机器能够通过自学习的方式不断从Web学习和抽取新的知识。目前NELL已经抽取了400多万条高置信度的三元组知识。
http://rtw.ml.cmu.edu/
10 ) 微软Concept Graph
Concept Graph是以概念层次体系为中心的知识图谱。与Freebase等知识图谱不同,Concept Graph以概念定义和概念之间的IsA关系为主。
给定一个概念如“Microsoft”,Concept Graph返回一组与“微软”由IsA关系概念组,如:“Company”,“Software Company”,“Largest OS Vender”等。这被称为概念化“Conceptualization”。Concept Graph可以用于短文本理解和语义消歧中。
http://concept.research.microsoft.com
11 ) OpenKG中文知识图谱资源库
http://openkg.cn
12 ) Zhishi.me
http://zhishi.me
13 ) cnSchema:开放的中文知识图谱Schema
cnSchema.org是一个基于社区维护的开放的知识图谱Schema标准。cnSchema分类(classes)、数据类型(data type)的词汇集包括了上千种概念、属性(propertities)和关系(relations)等常用概念定义,以支持知识图谱数据的通用性、复用性和流动性。
结合中文的特点,我们复用、连接并扩展了Schema.org,Wikidata,Wikipedia等已有的知识图谱Schema标准,为中文领域的开放知识图谱、聊天机器人、搜索引擎优化等提供可供参考和扩展的数据描述和接口定义标准。
http://cnschema.org
3.知识图谱技术
知识图谱技术是构造知识库的相关技术
知识图谱技术体系
知识表示
知识表示研究怎样用计算机符号来表示人脑中的知识,以及怎样通过符号之间的运算来模拟人脑的推理过程。
知识表示演化过程
语义网知识表示框架
RDF(资源描述框架)
OWL:Web Ontology Language
SPARQL
知识图谱的分布式表示-KG Embedding
知识图谱中的知识表示是将基于数理逻辑的知识表示转化为基于向量空间学习的分布式知识表示。
知识抽取
知识抽取主要用到NLP、KR的技术。
知识抽取的主要方法
知识存储
知识问答
知识推理
简单而言,推理是指基于已知事实推出来未知的事实的计算过程。
知识融合
知识众包
4.典型案例
以下是知识图谱在行业应用的典型案例
5.总结
以上是小象学院王昊奋的知识图谱课程第一节课的知识点和PPT内容的梳理,是对知识图谱进行宏观的了解,未来会对各知识点进行针对性学习。