知识图谱(Knowledge Graph, KG)(王昊奋老师-课程学习笔记)

主要内容:
1、知识图谱的概念
2、典型知识库介绍(简)
3、知识图谱技术概览
4、典型案例简介


知识图谱(KG)的概念

知识图谱(KG)得益于Web的发展(更多的是数据层面),有着来源于KR、NLP、Web、AI多个方面的基因。知识图谱(KG)的概念演化如图:
KG的概念演化图

知识图谱是2012年后的提法,基础还是语义网本体论

知识图谱的本质包含:
一、 知识表示——Knowledge Representation
二、 基于知识表示的知识库——Knowledge Base
知识库的来源:知识构建、知识抽取、知识融合
知识库怎么用:语义搜索、知识问答

知识图谱由文本(Texts、Documents)的链接到对象(Objects)的链接。

知识图谱(KG)的作用:
1、辅助搜索
2、辅助问答
3、辅助决策
4、辅助AI:常识推理

知识图谱的深度学习的区别:
人的大脑依赖所学的知识进行思考、逻辑推理、理解语言。
可以将深度学习知识图谱比作是“聪明的AI”和“有学识的AI”。
1、深度学习:主要是【学习】能力,通过强大的计算能力,感知、识别、判断来进行学习。
2、知识图谱:主要是【推理】能力,通过已有的规则和知识,思考、语言、推理来进行学习。
深度学习VS知识图谱


典型知识库介绍(简)

典型知识库有:
CYC知识库:常识知识库,最初目标是建立人类最大的常识知识库。
Wordnet:词典知识库,主要用于词义消歧。
ConceptNet:常识数据库,最早源于MIT媒体实验室,主要依靠互联网众包、专家创建和游戏三种方法来构建。知识库以三元组形式的关系型知识构成。侧重词与词之间的关系。ConceptNet完全免费开放,并支持多种语言。
Freebase:完全免费并允许商业化的开放许可协议。通过开源免费吸引吸引用户贡献数据,增值的应用及技术服务收费。
Wikidata:目标是构建全世界最大的免费知识库,但是仍然面临知识缺失严重的问题。
DBPedia:早期的语义网项目,意指数据库版本的Wikipedia,是从Wikipedia抽取出来的链接数据集。
YAGO:集成了Wikipedia、WordNet、GeoNames三个来源的数据。YAGO还考虑了时间和空间知识,为很多知识条目增加了时间和空间维度的属性描述。
Babelnet:类似于WordNet的多语言词典知识库,目标是解决WordNet在非英语语种中数据缺乏的问题。
NELL:是卡内基梅隆大学开发的知识库,主要采用互联网挖掘的方法从WEB自动抽取三元组知识。
微软的Concept Graph:以概念层次体系为中心的知识图谱。与Freebase等知识图谱不同,Concept Graph是以概念定义和概念之间的IsA关系为主。
OpenKG:中文知识图谱资源库。
cnSchema:开放的中文知识图谱Schema


知识图谱技术概览

知识图谱的技术体系如图:
知识图谱的技术体系

1、知识表示

知识表示研究怎样用计算机符号来表示人脑中的知识,以及怎样通过符号之间的运算来模拟人脑的推理过程。

知识图谱的离散式表示:
RDF、RDF Graph、RDFS、RDF的序列化格式、OWL、OWL extends RDF Schema、SPARQL、JSON-LD(数据交换格式)、RDFa HTML5 MicroData(在网页中嵌入语义数据)、
知识图谱的分布式表示:
KG Embedding

2、知识抽取:NLP+KR

知识抽取的主要方法:
(1).知识工程:正则表达式、模板匹配、规则约束
(2).基于本体的抽取:知识挖掘(推理)
(3).基于模型的抽取:模型、训练

3、知识存储

知识比数据的结构更加复杂,知识的存储需要综合考虑图的特点、复杂的知识结构存储、索引和查询(支持推理)的优化等问题。

典型的知识存储引擎分为基于关系数据库的存储和基于原生图的存储

在实践中,多为混合存储结构,图存储并非必须

4、知识问答

KBQA(Knowledge-Based Question Answering,基于知识库的问题回答)以直接而准确的方式回答用户自然语言提问的自动问答系统将构成下一代搜素引擎的基本形态。

5、知识推理

简单而言,推理是指基于已知事实推出未知的事实的计算过程。

大部分搜索引擎目前都已经支持了一定的推理能力。例如:在百度搜索中输入“姚明的女儿的妈妈的老公”,会发现搜索结果还是姚明。

知识推理可以按照解决方法推理类型进行分类。如图:
知识推理类型
基于描述逻辑的推理:本体推理

描述逻辑(description logic)是一种用于知识表示的逻辑语言和以其为对象的推理方法,主要用于描述概念分类及其概念之间的关系。
描述逻辑是当前语义网发展中本体的理论基础。

基于统计规则挖掘的推理
基于表示学习的推理-Representational Learning

6、知识融合

知识融合是指在不同数据集中找出同一个实体的描述记录,主要目的是对不同数据源中的实体信息进行整合,形成更加全面的实体信息。

知识融合的典型工具:Dedupe

Dedupe,基于Python的工具包,实现了包括fuzzy matching,deduplication,entity resolution在内的常见任务。主要处理流程是先对所有records通过Clustering/Blocking的方法进行分组,然后在组内部通过计算相似度特征和机器学习分类模型对任意一对records进行预测是否为同一实体。

适合于两个数据集有相似的结构,如果两个数据集的实体属性个数差异很大,不建议采用。

知识融合:典型工具-LIMES

专门针对链接数据Linked Data设计的链接框杂,不要求两个数据集的实体具有相似的结构。可灵活配置匹配规则,自定义距离计算模型,也支持基于Active Learning的机器学习方法

7、知识众包

Wikibase
Schema.ORG


典型案例简介

知识图谱的案例涉及:医疗健康、金融、电商、出版、农业、政府、电信、数字图书馆等领域。

下面以图片的形式进行展示:
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

以上是学习王昊奋的《知识图谱》课程的第一课的总结学习笔记。理解了课程的总体框架后,我对知识图谱和我所要研究的本体技术的关系有了较为清晰的认识,剩下的内容会根据自己的研究内容进行选择性学习。

  • 0
    点赞
  • 173
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
常识性知识图谱是一种以图谱结构来组织和表示常识性知识技术。它以实体、属性和关系为基本元素,将各种类型的常识性知识以节点和边的形式连接起来,形成一个丰富的知识络。 在常识性知识图谱中,实体代表现实世界中的事物,如人物、地点、组织、概念等。属性表示实体的性质或特征,如人物的出生日期、地点的经纬度等。而关系则描述实体之间的关联或联系,如人物之间的亲属关系、地点之间的距离关系等。 常识性知识图谱的建立主要依靠自然语言处理、信息抽取和知识表示技术。首先,通过自然语言处理技术,从多种文本资源中抽取出实体、属性和关系的信息。然后,利用信息抽取技术将这些信息结构化,并按照图谱的形式进行组织。最后,通过知识表示技术,将这些结构化的知识表示为计算机可理解的形式,以便机器能够基于知识图谱进行推理和理解。 常识性知识图谱具有广泛的应用前景。它可以用于智能问答系统,提供准确、全面的答案;用于智能推荐系统,根据用户的兴趣和需求,为其推荐个性化的内容;用于智能机器人,帮助机器人具备理解和推理能力,提供更智能的服务等等。 然而,常识性知识图谱的构建面临一些挑战,如知识获取的可靠性和准确性,知识表示的一致性和丰富性等。未来,通过不断改进知识抽取、知识推理等技术,常识性知识图谱有望更好地支持人工智能系统的发展,为人们提供更智能、更高效的服务。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值