强人工智能必经之路？知识图谱超详细总结，快速入门KG首选(万字长文，值得收藏)_知识图谱类目超级节点(2)

最新推荐文章于 2024-05-20 19:08:38 发布

2301_82257383

最新推荐文章于 2024-05-20 19:08:38 发布

阅读量525

点赞数 19

分类专栏：程序员文章标签：人工智能知识图谱

本文链接：https://blog.csdn.net/2301_82257383/article/details/138309285

版权

程序员专栏收录该内容

206 篇文章 0 订阅

订阅专栏

李明是李飞的父亲
李明今年25岁，职位是总经理
李明和张三是朋友关系
李明拥有一个138开头的电话号码
电话号开通时间是2018年

这种属性图的表达很贴近现实生活中的场景，也可以很好地描述业务中所包含的逻辑。除了属性图，知识图谱也可以用RDF来表示，它是由很多的三元组（Triples）来组成。RDF在设计上的主要特点是易于发布和分享数据，但不支持实体或关系拥有属性，如果非要加上属性，则在设计上需要做一些修改。目前来看，RDF主要还是用于学术的场景，在工业界我们更多的还是采用图数据库（比如用来存储属性图）的方式。

知识图谱应用的前提是已经构建好了知识图谱，也可以把它认为成一个知识库。这也是为什么它可以用来回答一些搜索相关问题的原因，比如在百度搜索引擎里输入“周杰伦妻子是谁”，我们直接可以得到答案“昆凌”。这是因为我们在系统层面上已经创建好了一个包含“周杰伦”和“昆凌”的实体以及他俩之间关系的知识库。所以，当我们执行搜索的时候，就可以通过关键词提取（“周杰伦”, “昆凌”, “妻子”）以及知识库上的匹配可以直接获得最终的答案。这种搜索方式跟传统的搜索引擎是不一样的。后者返回的是网页，而不是最终的答案，多了一层用户自己筛选并过滤信息的过程。

二、知识图谱构建与技术

1.知识图谱的构建

知识图谱的架构主要包括自身的逻辑结构以及体系架构。

知识图谱在逻辑结构上可分为模式层与数据层两个层次，数据层主要是由一系列的事实组成，而知识将以事实为单位进行存储。如果用（实体1，关系，实体2）、（实体、属性，属性值）这样的三元组来表达事实，可选择图数据库作为存储介质，例如开源的 Neo4j、Twitter 的 FlockDB、JanusGraph 等。模式层构建在数据层之上，主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板，通过本体库而形成的知识库不仅层次结构较强，并且冗余程度较小。

知识图谱的体系架构是指其构建模式的结构，如下图所示：

知识图谱的构建是后续应用的基础，而且构建的前提是需要把数据从不同的数据源中抽取出来。对于垂直领域的知识图谱来说，它们的数据源主要来自两种渠道：一种是业务本身的数据，这部分数据通常包含在公司内的数据库表并以结构化的方式存储；另一种是网络上公开抓取的数据，这些数据通常是以网页的形式存储的非结构化的数据。

前者一般只需要简单预处理即可以作为后续AI系统的输入，但后者一般需要借助于自然语言处理等技术来提取出结构化信息。比如在上面的搜索例子里，周杰伦和昆凌的关系就可以从非结构化数据中提炼出来，比如百度百科等数据源。

信息抽取的难点在于处理非结构化数据。在构建类似的图谱过程当中，主要涉及以下几个方面的自然语言处理技术：

实体命名识别（Name Entity Recognition）
关系抽取（Relation Extraction）
实体统一（Entity Resolution）
指代消解（Coreference Resolution）

2.知识图谱技术

大规模知识库的构建与应用需要多种自然语言处理技术的支持。通过知识抽取技术，可以从一些公开的半结构化、非结构化的数据中提取出实体、关系、属性等知识要素。通过知识融合，可消除实体、关系、属性等指称项与事实对象之间的歧义，形成高质量的知识库。知识推理则是在已有的知识库基础上进一步挖掘隐含的知识，从而丰富、扩展知识库。分布式的知识表示形成的综合向量对知识库的构建、推理、融合以及应用均具有重要的意义。

知识抽取：

知识抽取主要是面向开放的链接数据，通过自动化的技术抽取出可用的知识单元，知识单元主要包括实体(概念的外延)、关系以及属性3个知识要素，并以此为基础，形成一系列高质量的事实表达，为上层模式层的构建奠定基础。知识抽取有三个主要工作：

实体抽取：也被称为命名实体识别，指的是从原始语料中自动识别出命名实体。由于实体是知识图谱中的最基本元素，其抽取的完整性、准确、召回率等将直接影响到知识库的质量。因此，实体抽取是知识抽取中最为基础与关键的一步；
关系抽取：目标是解决实体间语义链接的问题，早期的关系抽取主要是通过人工构造语义规则以及模板的方法识别实体关系。随后，实体间的关系模型逐渐替代了人工预定义的语法与规则。
属性抽取：属性抽取主要是针对实体而言的，通过属性可形成对实体的完整勾画。由于实体的属性可以看成是实体与属性值之间的一种名称性关系，因此可以将实体属性的抽取问题转换为关系抽取问题。

知识表示：

近年来，以深度学习为代表的表示学习技术取得了重要的进展，可以将实体的语义信息表示为稠密低维实值向量，进而在低维空间中高效计算实体、关系及其之间的复杂语义关联，对知识库的构建、推理、融合以及应用均具有重要的意义。

知识融合：

由于知识图谱中的知识来源广泛，存在知识质量良莠不齐、来自不同数据源的知识重复、知识间的关联不够明确等问题，所以必须要进行知识的融合。知识融合是高层次的知识组织，使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤，达到数据、信息、方法、经验以及人的思想的融合，形成高质量的知识库。

其中，知识更新是一个重要的部分。人类的认知能力、知识储备以及业务需求都会随时间而不断递增。因此，知识图谱的内容也需要与时俱进，不论是通用知识图谱，还是行业知识图谱，它们都需要不断地迭代更新，扩展现有的知识，增加新的知识。

三、知识图谱搭建流程及设计

首先，我们还是要定一个具体的问题，这样整个设计才有一个明确的目的性。在本章，我们主要以金融风控为案例来讲述知识图谱的构建过程。

一个完整的知识图谱的构建包含以下几个步骤：

定义具体的业务问题
数据的收集
预处理
知识图谱设计
存储知识图谱
应用知识图谱
系统评估

下面我们就按照这个流程来讲一下每个步骤所需要做的事情以及需要思考的问题。

1.定义具体的业务问题

金融归根揭底要解决的是风控的问题，包括个人贷款、风险定价、保险、证券投资。在P2P网贷环境下，最核心的问题是风控，也就是怎么去评估一个借款人的风险。在线上的环境下，欺诈风险尤其为严重，并且很多这种风险隐藏在复杂的关系网络之中，而知识图谱正好是为这类问题所设计的。

在这个过程中核心其实是图谱的设计，因为一旦图谱设计好，它就成为我们后续的“大脑”，设计好与不好直接影响对未来的应用。这就类似于，我们搭建数据库表一样，一旦设计不合理就会产生大量的问题。设计好一个知识图谱很大程度上取决于对业务的理解以及对未来业务的展望。

目前需要解决的问题是如何通过技术手段去判定一个人申请人的欺诈风险

如何判断一个人欺诈风险，传统方法可以根据个人特征：年龄、单位、工资，但是仅仅关注一个点，而现在通过知识图谱，可以根据关系特征：周围朋友、电话号码等等，比如，朋友是否有失信记录或者不同人用相同手机号码登记，这就把我们查询的范围从一个点扩大到一个面。

**什么时候需要知识图谱？**在进入下一个话题的讨论之前，要明确的一点是，对于自身的业务问题到底需不需要知识图谱系统的支持。因为在很多的实际场景，即使对关系的分析有一定的需求，实际上也可以利用传统数据库来完成分析的。所以为了避免使用知识图谱而选择知识图谱，以下给出了几点总结。

有没有强烈可视化需求
有没有设计深度搜素的场景
对查询效率有无实时性要求
数据多样化、解决数据孤岛问题
是否有能力和成本搭建知识图谱系统
是否有一定的知识推理需求

2.数据收集和预处理

下一步就是要确定数据源以及做必要的数据预处理。针对于数据源，我们需要考虑以下几点：

我们已经有哪些数据？
虽然现在没有，但有可能拿到哪些数据？
其中哪部分数据可以用来降低风险？
哪部分数据可以用来构建知识图谱？

在这里需要说明的一点是，并不是所有跟反欺诈相关的数据都必须要进入知识图谱，对于这部分的一些决策原则在接下来的部分会有比较详细的介绍。

对于反欺诈，有几个数据源是我们很容易想得到的，包括用户的基本信息、行为数据、运营商数据、电商数据、黑名单、网络上的公开信息等等。假设我们已经有了一个数据源的列表清单，则下一步就要看哪些数据需要进一步的处理，比如对于非结构化数据我们或多或少都需要用到跟自然语言处理相关的技术。用户填写的基本信息基本上会存储在业务表里，除了个别字段需要进一步处理，很多字段则直接可以用于建模或者添加到知识图谱系统里。对于行为数据来说，我们则需要通过一些简单的处理，并从中提取有效的信息比如“用户在某个页面停留时长”等等。对于网络上公开的网页数据，则需要一些信息抽取相关的技术。

举个例子，对于用户的基本信息，我们很可能需要如下的操作。一方面，用户信息比如姓名、年龄、学历等字段可以直接从结构化数据库中提取并使用。但另一方面，对于填写的公司名来说，我们有可能需要做进一步的处理。比如部分用户填写“北京贪心科技有限公司”，另外一部分用户填写“北京望京贪心科技有限公司”，其实指向的都是同一家公司。所以，这时候我们需要做公司名的对齐，用到的技术细节可以参考前面讲到的实体对齐技术。

3.知识图谱的设计

知识图谱的设计是一门艺术，不仅要对业务有很深的理解，也需要对未来业务可能的变化有一定预估，从而设计出最贴近现状并且性能高效的系统。

在知识图谱设计的问题上，我们肯定会面临以下几个常见的问题：

需要哪些实体、关系和属性？
哪些属性可以做为实体，哪些实体可以作为属性？
哪些信息不需要放在知识图谱中？

基于这些常见的问题，我们从以往的设计经验中抽象出了一系列的设计原则。这些设计原则就类似于传统数据库设计中的范式，来引导相关人员设计出更合理的知识图谱系统，同时保证系统的高效性。

以上是从以往经验中总结出来的，并不一定完全准确，但至少能反应我们在设计知识图谱时避免的坑。下面，就围绕每一个点给大家展开说明。

**业务原则：**一切从业务逻辑出发，也就是说通过观察知识图谱设计也很容易推测其背后业务逻辑。而且设计时也要想好未来业务的变化。

**分析原则：**知识图谱中任何实体都是为了关系分析而服务，如果实体对分析网络结构没有帮助，则可以设计成属性甚至不要放在知识图谱中。

**冗余原则：**知识图谱设计中，避免把超级节点放入到知识图谱中，这会导致系统性能急剧下降，并且避免存放任何信息。

**效率原则：**知识图谱尽量轻便，只存储关键信息，剩下的可以存储在传统数据库中。

利用以上的原则，我们就可以对金融反欺诈领域设计图谱了。最终，一个精简的图谱如下图所示。当然，实际应用中的图谱要比这个复杂得多!

4.知识图谱的存储

知识图谱主要有两种存储方式：一种是基于RDF的存储；另一种是**基于图数据库的存储。**它们之间的区别如下图所示。RDF一个重要的设计原则是数据的易发布以及共享，图数据库则把重点放在了高效的图查询和搜索上。其次，RDF以三元组的方式来存储数据而且不包含属性信息，但图数据库一般以属性图为基本的表示形式，所以实体和关系可以包含属性，这就意味着更容易表达现实的业务场景。

根据最新的统计，图数据库仍然是增长最快的存储系统。相反，关系型数据库的增长基本保持在一个稳定的水平。同时，也列出了常用的图数据库系统以及他们最新使用情况的排名。其中Neo4j系统目前仍是使用率最高的图数据库，它拥有活跃的社区，而且系统本身的查询效率高，但唯一的不足就是不支持准分布式。相反，OrientDB 和 JanusGraph（原Titan）支持分布式，但这些系统相对较新，社区不如Neo4j活跃，这也就意味着使用过程当中不可避免地会遇到一些刺手的问题。如果选择使用RDF的存储系统，Jena或许一个比较不错的选择。

5.知识图谱的应用

构建好知识图谱之后，接下来就要使用它来解决具体的问题。对于金融风控知识图谱来说，首要任务就是挖掘关系网络中隐藏的欺诈风险。从算法的角度来讲，有两种不同的场景：一种是基于规则的；另一种是基于概率的。前者依赖于专家的经验，后者依赖于数据驱动。

鉴于目前AI技术的现状，基于规则的方法论还是在垂直领域的应用中占据主导地位，但随着数据量的增加以及方法论的提升，基于概率的模型也将会逐步带来更大的价值。

5.1 基于规则的应用

首先，我们来看几个基于规则的应用，分别是不一致性验证、基于规则的特征提取、基于模式的判断。

不一致性验证：

为了判断关系网络中存在的风险，一种简单的方法就是做不一致性验证，也就是通过一些规则去找出潜在的矛盾点。这些规则是以人为的方式提前定义好的，所以在设计规则这个事情上需要一些业务的知识。比如在下面的这个图中，李明和李飞两个人都注明了同样的公司电话，但实际上从数据库中判断这俩人其实在不同的公司上班，这就是一个矛盾点。类似的规则其实可以有很多，不在这里一一列出。

基于规则提取特征：

我们也可以基于规则从知识图谱中提取一些特征，而且这些特征一般基于深度的搜索比如2度，3度甚至更高维度。比如我们可以问一个这样的问题：“借款人与这两者什么关系？”从图中我们很容易观察到借款人是李飞的父亲，而李明是李飞的朋友。等这些特征被提取之后，一般可以作为风险模型的输入。在此还是想说明一点，如果特征并不涉及深度的关系，其实传统的关系型数据库则足以满足需求。

基于模式的判断：

这种方法比较适用于找出团体欺诈，它的核心在于通过一些模式来找到有可能存在风险的团体或者子图（sub-graph），然后对这部分子图做进一步的分析。这种模式有很多种，包括：多点共享信息、三角关系、强连通图、团、弱连通图等等。在这里举几个简单的例子。比如在下图中，三个实体共享了很多其他的信息，我们可以看做是一个团体，有欺诈嫌疑，并对其做进一步的分析。