知识图谱关键技术与应用案例

本课程从知识图谱的历史由来开展,讲述知识图谱与人工智能的关系与现状;知识图谱辐射至各行业领域的应用;在知识图谱关键技术概念与工具的实践应用中,本课程也会讲解知识图谱的构建经验;以及达观在各行业领域系统中的产品开发和系统应用。报名地址:https://edu.csdn.net/huiyiCourse/detail/844作者简介:桂洪冠,达观数据联合创始人,中国计算机学会 CCF 会员,自然...
摘要由CSDN通过智能技术生成

本课程从知识图谱的历史由来开展,讲述知识图谱与人工智能的关系与现状;知识图谱辐射至各行业领域的应用;在知识图谱关键技术概念与工具的实践应用中,本课程也会讲解知识图谱的构建经验;以及达观在各行业领域系统中的产品开发和系统应用。

报名地址:

https://edu.csdn.net/huiyiCourse/detail/844


作者简介:桂洪冠,达观数据联合创始人,中国计算机学会 CCF 会员,自然语言处理技术专家。在参与创办达观数据前,曾在腾讯文学、阿里巴巴、新浪微博等知名企业担任数据挖掘高级技术管理工作。

桂洪冠在数据技术领域拥有6项国家发明专利,中国科学技术大学计算机硕士学位。在 AI 大数据架构与核心算法以及 NLP、知识图谱等领域有深厚的积累和丰富的实战经验。

前言

本文分如下几个部分:

  1. 知识图谱的相关概述;

  2. 知识图谱的基本概念;

  3. 知识图谱行业方面的应用和场景介绍,着重讲一下知识图谱构建的相关技术;

  4. 达观在知识图谱构建方面的经验、心得和相关案例。

一、知识图谱的概述

我们先直观的来看一下什么是知识图谱,下面有一张图,从这张图里可以看到,这个图里圆圈是节点,节点之间有一些带箭头的边来连成,这个节点实际上相当于知识图谱里的实体或者概念,边连线表示实体之间的关系。

知识图谱本质上是一种大型的语义网络,它旨在描述客观世界的概念实体事件以及及其之间的关系。以实体概念为节点,以关系为边,提供一种从关系的视角来看世界。

enter image description here

语义网络已经不是什么新鲜事,早在上个世纪就已经出现了,但为什么重新又提到知识图谱?

知识图谱本质上是一种语义网络,但是它最主要的特点是一个非常大规模的语义网络,之前的语义网络受限于我们处理的方法,更多是依赖于专家的经验规则去构建,在规模方面受限于特定领域的数据。大规模网络,谷歌在 2012 年首先提出知识图谱的概念,在 freebase 的基础上扩展了大量来自互联网的实体数据和关系数据。据说目前实体的数据已经达到数十亿级,有达到千亿级的实例关系,规模是非常巨大的。

enter image description here

我们再看一下,知识图谱背后是怎么表示的,我们看到的是一个巨大的语义网,背后是怎么存储或者表示的呢?

首先,它是由三元组构成的,构成知识图谱的核心其实就是三元组,三元组是由实体、属性和关系组成的(由 Entity、Attribute、Relation 组成)。

具体表示方法为,实体 1 跟实体 2 之间有某种关系,或者是实体属性、属性词。

举个例子,“ 达观数据是一家人工智能公司 ”,其实就可以表示成这样的三元组:

<达观数据,is-a,人工智能公司>。“人工智能公司是一种高科技公司”可以表示成:<人工智能公司,subclass,高科技公司>。“达观数据成立于2015年”,也可以把这个属性表示成一个三元组,就是:<达观数据,start-time,2015年>。

基于已有的三元组,它可以推导出新的关系,这个对构建知识图谱来说是非常重要的。我们知道,知识图谱要有丰富的实体关系,才能真正达到它实用的价值。完全靠人工去做的话是不太现实的,所以内部一定有一个自动推理的机制,可以不断的去推理出新的关系数据出来,不断的丰富知识图谱。来看一些具体的例子。

“ 人工智能公司是一种高科技公司 ”,subclass 的关系。

还有一个三元组是谷歌是一家人工智能公司,<Google is-a人工智能公司>,可以由这两个三元组推导出谷歌是一家高科技公司,<Google is-a高科技公司>。因为 subclass 的实例之间是一种继承的关系。

<翅膀part-of鸟><麻雀kind-of鸟>,可以推导出 <翅膀part-of麻雀>

为什么要用三元组来描述知识图谱?

三元组是一个人和计算机都易于理解的结构,人是可以解读的,计算机也可以通过三元组去处理,所以它是一个既容易被人类解读,又容易被计算机来处理和加工的结构,而且它也足够的简单,如果说你扩充成四元组、五元组,它整个结构就会变得比较复杂,那是综合的一种复杂性和人的易理解性、和计算机的易出理性来综合的考虑,决定用三元组的结构来去作为它的一个存储。

那么,AI 为什么需要知识图谱?

人工智能分为三个阶段,从机器智能到感知智能,再到认知智能。机器智能更多强调这些机器的运算的能力,大规模的集群的处理能力,GPU 的处理的能力。

在这个基础之上会有感知智能,感知智能就是语音识别、图像识别,从图片里面识别出一个猫,识别人脸,是感知智能。感知智能并非人类所特有,动物也会有这样的一些感知智能。

再往上一层的认知智能,是人类所特有的,是建立在思考的基础之上的,认知的建立是需要思考的能力,而思考是建立在知识的基础之上,必须有知识的基础、有一些常识,才能建立一些思考,形成一个推理机制。

enter image description here

AI 需要从感知智能迈向认知智能,本质上知识是一个基础,然后基于知识的推理,刚好知识图谱其实是具备这样的一个属性。

知识图谱在达观的知识问答当中的应用

我们的智能问答是融合了是知识图谱问答和基于检索的问答两种方法进行融合。

首先,左边会把用户的语音经过语音转成文字以后,进行一个预处理,预处理主要是做了分词、纠错、词性标注、实体属性的识别,对这个句子进行依存句法树的结构分析。

预处理完了以后,引擎会首先尝试根据问句的句法结构进行问句模板的匹配,如果说能够匹配到合适的问句模板,这个时候再根据在预处理阶段得到的问句的实体属性和关系,对匹配到的问题模板进行实例化,然后再根据实例化以后的问句模板来生成知识图谱的图数据库的查询语言,然后在图数据库里面就可以把这个答案查出来了。

另外一种情况是没有匹配到合适的问句模板,这个时候会进入到基于检索的问答模块,最后是把基于知识图谱和基于检索的两种的结果进行融合。

在 HR 人岗精准匹配里面的应用

HR 创建的 JD 能够自动的匹配到简历库里面最合适的候选人的简历,也即把 JD 的内容和简历库里面简历的内容做语义的匹配。

这里有一个问题,JD 对技能的描述和不同的人的简历中对技能的描述存在很多表达方式造成的语义方面的差异。我们分别对 JD 和简历构建技能图谱,通过技能图谱的子图匹配,就可以比较好地来解决语义匹配的问题。

我们在知识图谱建设当中的一些经验:
  • 第一,界定好范围,就是要有一个明确的场景和问题的定义,不能说为了知识图谱而知识图谱。如果没有想清楚知识图谱有什么样的应用的场景,或者能解决什么样的问题,这样的知识图谱是比较难以落地的。一些明确的场景,比如解决商品数据的搜索问题,或者从产品说明书里面做相关问题的回答。

  • 第二,做好 schema 的定义,就是上面讲到的对于 schema 或者本体的定义。第一步确定好场景和问题以后,就基于这样的场景或者问题,再进行相关领域的 schema 的定义。定义这个领域里概念的层次结构、概念之间的关系的类型,这样做是确保整个知识图谱是比较严谨的,知识的准确性

  • 24
    点赞
  • 160
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值