第一章(1.1)——知识图谱简介

本文介绍了知识图谱的概念,定义为一种基于图的数据结构,用于表示实体和它们之间的关系。讨论了RDF和图数据库两种常见的知识图谱存储方式,并概述了它们的特点。接着,文章阐述了知识图谱在反欺诈和知识推理中的应用,以及知识图谱构建中的关键技术,包括知识抽取、关系抽取、实体抽取和实体统一等。
摘要由CSDN通过智能技术生成

1.1 什么是知识图谱

知识图谱最开始是Google为了优化搜索引擎提出来的,推出之后引起了业界轰动,随后其他搜索公司也纷纷推出了他们的知识图谱

1.1.1 定义

知识图谱是一种基于图的数据结构,由节点(point)和边(Edge)组成,每个节点表示一个“实体”,每条边为实体与实体之间的“关系”,知识图谱本质上是语义网络。
通俗定义:知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络,因此知识图谱提供了从“关系”的角度去分析问题的能力。

1.2 知识图谱常见存储方式

知识图谱主要有两种存储方式:一种是基于RDF的存储;另一种是基于图数据库的存储

1.2.1 RDF

RDF一个重要的设计原则是数据的易发布以及共享,另外,RDF以三元组(即“实体-关系-实体”这种结构体)的方式来存储数据而且不包含属性信息。

1.2.2 图数据库

图数据库主要把重点放在了高效的图查询和搜索上,一般以属性图为基本的表示形式,所以实体和关系可以包含属性。

1.2.3 RDF和图数据库的主要特点区别

RDF图数据库
存储三元组关系和节点可以带属性
标准的推理引擎没有标准的推荐引擎
W3C标准图的遍历效率高
易于发布数据有事务管理
多数为学术界场景使用基本为工业场景使用

1.3 知识图谱应用

1.3.1 反欺诈

假设银行要借钱给一个人,那要怎么判断这个人是真实用户还是欺诈的呢?
[图片]
我们需要以人为核心,展开一系列的数据构建,比如说用户的基本信息、借款记录、工作信息、消费记录、行为记录、网站浏览记录等等。把这些信息整合到知识图谱中。从而整体进行预测和评分,用户欺诈行为的概率有多大。当然这个预测是需要通过机器学习,得到一个合理的模型,模型中可能会包括消费记录的权重、网站浏览记录的权重等等信息。
[图片]
比如说不同的两个借款人,却填写了同一个电话号码,那说明这两个人中至少有一个是可疑的了,这时就需要重点关注了。
[图片]
更复杂点的,可能需要知识图谱通过一些关系去推理了。比如说“借款人”跟小明和小秦都是母子关系,按推理的话小明跟小秦应该是兄弟关系,而在知识图谱上显示的是朋友关系,就有可能有异常了,因此也需要重点关注。
[图片]
如果借款人失联了,通过知识图谱,是不是可以联系他的朋友,或兄弟,甚至是兄弟的妻子,去追踪失联人。
因此在失联的情况下,知识图谱可以挖掘更多失联人的联系人,从而提高催收效率。

1.3.2 知识推理

在这里插入图片描述
如上左图(注意这里的箭头方向),小秦是大秦的儿子,大秦是老秦的儿子,从这这样的关系,我们就可以推理出,小秦是老秦的孙子,这样就能使知识图谱更加完善了。
在这里插入图片描述
如上左图,小明在腾讯上班,小秦也在腾讯上班,从这样的关系,我们可以推理出,小明和小秦是同事关系。

推理能力其实就是机器模仿人的一种重要的能力,可以从已有的知识中发现一些隐藏的知识。当然这样的能力离不开深度学习,而随着深度学习的不断成熟,我相信知识图谱的能力也会越来越强大。

1.4 知识图谱的关键技术

1.4.1 知识抽取

知识图谱构建的过程中,最主要的一个步骤就是把数据从不同的数据源中抽取出来,然后按一定的规则加入到知识图谱中,这个过程我们称为知识抽取

数据源的分为两种:

  • 结构化的数据
  • 非结构化的数据

结构化的数据是比较好处理的,难点在于处理非结构化的数据。而处理非结构化数据通常需要使用自然语言处理技术:实体命名识别、关系抽取、实体统一、指代消解等。

1.4.2 关系抽取

在这里插入图片描述

关系抽取是把实体之间的关系抽取出来的一项技术,其中主要是根据文本中的一些关键词,如“出生”、“在”、“转会”等,我们就可以判断詹姆斯与地点俄亥俄州、与迈阿密热火等实体之间的关系。

1.4.3 实体抽取(实体命名识别)

实体抽取或者说命名实体识别(NER)在信息抽取中扮演着重要角色,主要抽取的是文本中的原子信息元素,如人名、组织/机构名、地理位置、事件/日期、字符值、金额值等。

1.4.4 实体统一

在这里插入图片描述
在文本中可能同一个实体会有不同的写法,比如说“LBJ”就是詹姆斯的缩写,因此“勒布朗詹姆斯”和“LBJ”指的就是同一个实体,实体统一就是处理这样问题的一项技术。

1.4.5 指代消解

在这里插入图片描述
指代消解跟实体统一类似,都是处理同一个实体的问题。比如说文本中的“他”其实指的就是“爱因斯坦”。所以指代消解要做的事情就是,找出这些代词,都指的是哪个实体。

指代消解和实体统一是知识抽取中比较难的环节。

参考文献

1.《浅谈知识图谱基础》_我偏笑_NSNirvana

2.《“知识图谱”项目,需产品经理考虑的几点问题》_博斌_20190218

3.《【知识图谱】项目前期产品经理需要做哪些准备》_Jasmine 《知识图谱的应用》_惠普大数据李文哲

4.《干货 | 从零到一学习知识图谱的技术与应用》_李文哲

5.《知识图谱及其变种在行业实践中的应用与思考》_中兴-陈虹

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

两只橙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值