个人学习笔记之知识图谱入门基本概念(1)

知识图谱概念

知识图谱是Google用于增强其搜索引擎功能的知识库。本质上, 知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念(也可表示为实体:概念、实例),边则由属性或关系构成。

知识图谱中包含的节点

  • 实体: 指的是具有可区别性且独立存在的某种事物。如某一个人、某一个城市、某一种植物等、某一种商品等等。世界万物由具体事物组成,此指实体。如下图的“中国”、“美国”、“日本”等。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。

  • 语义类(概念):具有同种特性的实体构成的集合,如国家、民族、书籍、电脑等。 概念主要指集合、类别、对象类型、事物的种类,例如人物、地理等。

  • 内容: 通常作为实体和语义类的名字、描述、解释等,可以由文本、图像、音视频等来表达。

  • 属性(值): 从一个实体指向它的属性值。不同的属性类型对应于不同类型属性的边。属性值主要指对象指定属性的值。如下图所示的“面积”、“人口”、“首都”是几种不同的属性。属性值主要指对象指定属性的值,例如960万平方公里等。

  • 关系: 形式化为一个函数,它把 k k个点映射到一个布尔值。在知识图谱上,关系则是一个把k k个图节点(实体、语义类、属性值)映射到布尔值的函数。

基于上述定义。三元组是知识图谱的一种通用表示方式,即G=(E,R,S),其中E={e1,e2,⋯,e|E|}是知识库中的实体集合,共包含|E|种不同实体;R={r1,r2,⋯,r|E|}是知识库中的关系集合,共包含|R|种不同关系;S⊆E×R×ES⊆E×R×E代表知识库中的三元组集合。中国是一个实体,北京是一个实体,中国-首都-北京 是一个(实体-关系-实体)的三元组样例北京是一个实体 ,人口是一种属性2069.3万是属性值。北京-人口-2069.3万构成一个(实体-属性-属性值)的三元组样例。

知识图谱技术概览

知识抽取

知识抽取技术,可以从一些公开的半结构化、非结构化的数据中提取出实体、关系、属性等知识要素。

*结构化数据:可以通过固有键值获取相应信息,且数据的格式固定。例如表格、关系数据库

*半结构化数据:缺乏表格顺序,但由于某些标记而具有基本层次结构的数据。可以通过灵活的键值调整获取相应信息,且数据的格式不固定,如json,同一键值下存储的信息可能是数值型的,可能是文本型的,也可能是字典或者列表。例如日志文件、xml

*非结构化数据:不可以通过键值获取相应信息。例如照片、视频、音乐

知识抽取主要包含实体抽取、关系抽取、属性抽取等,涉及到很多自然语言处理(NLP) 技术如命名实体识别、句法依存、实体关系识别等。

例:

常用技术点1:命名实体识别(NER)

常用技术2:基于实体与关系构建知识图谱网络图(关系抽取)

常用技术3:实体统一、指代消解

知识表示

知识表示形成的综合向量对知识库的构建、推理、融合以及应用均具有重要的意义。

基于三元组的知识表示形式受到了人们广泛的认可,但是其在计算效率、数据稀疏性等方面却面临着诸多问题。知识表示学习基于分布式表示的思想,可以将实体(或关系)的语义信息表示为稠密低维实值向量,使语义相似的两个对象之间距离也相近。

特点:

知识融合

由于知识图谱中的知识来源广泛,存在知识质量良莠不齐、来自不同数据源的知识重复、知识间的关联不够明确等问题,所以必须要进行知识的融合。知识融合是高层次的知识组织,使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤,达到数据、信息、方法、经验以及人的思想的融合,形成高质量的知识库。

在知识融合过程中,实体对齐、知识加工是两个重要的过程。

实体融合(Knowledge Fusion),也叫数据连接(Data Linking)等,目的是在不同的数据集中找出一个实体的描述记录,主要目的是对不同的数据源中的实体进行整合,形成更加全面的实体信息。典型的工具为Dedupe(一个基于python的工具包)和LIMES。

例如(实例层面的知识融合):

特征进行融合,得到最终的向量

知识推理

核心embedding,给每个节点编码成一个向量,有了特征编码就可以做一些预测、分析等ML任务

例如在金融领域,有了特征编码就可以做一些预测、分析等ML任务

知识推理则是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。在推理的过程中,往往需要关联规则的支持。由于实体、实体属性以及关系的多样性,人们很难穷举所有的推理规则,一些较为复杂的推理规则往往是手动总结的。对于推理规则的挖掘,主要还是依赖于实体以及关系间的丰富情况。知识推理的对象可以是实体、实体的属性、实体间的关系、本体库中概念的层次结构等。

知识推理方法主要可分为基于逻辑的推理与基于图的推理两种类别。

按照解决方法分类可分为:基于描述逻辑的推理、基于规则挖掘的推理、基于概率逻辑的推理、基于表示学习与神经网络的推理。按照推理类型分类可分为:缺省推理、连续变化推理、空间推理、因果关系推理等等。

知识问答

知识问答(Knowledge-Based Question Answering, KBQA)是基于知识库的问题回答,它以直接而准确的方式回答用户自然语言提问的自动问答系统,它将构成下一代搜索引擎的基本形态。如搜索姚明的身高,就可以给出226cm的回答。其实现流程为:

知识众包

允许各网站基于一定的方式如RDFa、JASON-LD等方式在网页和邮件等数据源中嵌入语义化数据,让个人和企业定制自己的知识图谱信息。例如验证码系统。

知识图谱的应用

知识图谱在搜索中的应用

知识图谱在医疗领域中的应用

构建图谱,智能AI医疗问答、辅助决策选出最优决策

在金融领域当中的应用

风控模型、反欺诈模型

在推荐系统中的应用

抖音

知识图谱在医疗领域应用实例.mp4_哔哩哔哩_bilibili

  • 27
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值