知识表示与融入技术前沿进展及应用

最新推荐文章于 2024-05-23 16:28:04 发布

PaperWeekly

最新推荐文章于 2024-05-23 16:28:04 发布

阅读量2.4k

点赞数 5

文章标签：算法大数据自然语言处理编程语言机器学习

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/112165358

版权

本文探讨了知识在人工智能，尤其是自然语言处理中的重要性，指出知识图谱表示学习和预训练语言模型知识融入是当前研究热点。知识图谱表示学习通过模型如TransE、RESCAL等提升语义理解，而在预训练语言模型中，通过融合知识增强实体识别和多跳问答能力。在实际应用中，这些技术在动态适应新属性、小样本学习和行业知识融入等方面展现出优势，对提高AI系统的理解能力和泛化性能有显著作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作者｜李杨[1]，李晶阳[1]，牛广林[2]，唐呈光[1]，付彬[1]，余海洋[1]，孙健[1]

单位｜阿里巴巴-达摩院-小蜜Conversational AI团队[1]，北京航空航天大学计算机学院[2]

引言

目前，业界公认的人工智能（AI）三个层次为计算智能、感知智能、认知智能。一般来讲，计算智能即快速计算、记忆和储存能力；感知智能，即视觉、听觉、触觉等感知能力，当下十分热门的人脸识别、语音识别即是感知智能，本质上是充分利用深度学习模型对大数据分布的拟合能力；认知智能则更为复杂，包括分析、思考、理解和推理的能力。

随着 AI 技术的不断推进，认知智能的研究也越来越受到重视。而“知识”作为认知智能的核心元素之一，逐渐成为继大数据、算法、算力后，第四个推动人工智能发展的关键要素。

对于 AI 的核心分支——自然语言处理（NLP）而言，要做到精细深度的语义理解，单纯依靠大规模数据标注的解决方案遇到越来越多的阻碍，相反地，知识在语义理解上的作用不断凸显。

举例来说，对于和“人才工作补贴”相关的问题“我刚从斯坦福毕业回国工作，请问可以申请补贴吗?”，在目前采用传统的语义匹配架构的问答系统中，由于没有关于“斯坦福”的知识，因此往往需要配置若干条相似问数据，重新训练的模型才能给予上述问题正确解答。

而如果模型拥有先验知识 “斯坦福”→“大学”→“人才”，那么其就能很自然的对上述问题给予肯定的答复。因此，利用人类广泛的先验知识为自然语言处理提供先验知识与逻辑支撑，进而构建融入知识的自然语言处理模型，成为越来越热门的研究范式。

从如何利用大规模先验知识增强语义理解的课题出发，结合阿里巴巴云小蜜的业务场景，本文第二部分对知识表示与融入的技术前沿和若干行业应用进行介绍，具体来说主要对知识图谱表示学习和融入知识的预训练语言模型及其在若干场景下的应用介绍，在第三部分，本文介绍了阿里巴巴云小蜜在知识应用上的探索与实践，主要分为三部分：

1. 在基于知识图谱的问答（KBQA）场景下，介绍结合知识图谱表示学习的 KBQA 动态自适应能力；2. 知识图谱表示学习在 Few-Shot 情形下的深入探索；3. 融入行业知识的预训练语言模型的应用实践。

知识表示与融入技术进展

2.1 知识图谱表示学习及应用

本节主要介绍知识图谱表示学习及其应用。知识图谱表示学习共分为四类：基于翻译的 Trans 系列模型、基于张量分解模型、基于神经网络的模型以及基于图神经网络模型。

知识图谱表示学习的嵌入表示可广泛应用于下游任务如：图谱知识成份相关的预测、实体类别识别、实体消歧等任务，以及非图谱知识成份相关的问答、推荐、关系分类等任务 [1]。本文将以问答和推荐任务为代表，介绍如下几篇经典工作。

2.1.1 知识图谱表示学习

2.1.1.1 基于翻译的模型

将知识图谱中的每个三元组看成是从头实体经过关系到尾实体的翻译过程，不同的基于翻译的模型之间的区别就在于打分函数的设计，经典算法为 TransE 模型 [2]。TransE 模型的原理如下图所示：

由上图可以看出，TransE 的思想就是对头实体向量通过关系的平移操作得到尾实体向量。TransE 模型的打分函数设计为：

这个打分函数也可以被称为距离函数，用于衡量头实体表示加关系表示与尾实体表示之间的距离，当一个三元组（h, r, t）成立时，这个打分函数应取值为零。基于该打分函数，TransE 模型在训练过程中，采用最大间隔方法的 hinge loss。TransE 的 Loss function 为：

其中，（h, r, t）为知识图谱中存在的一个正例三元组，（h', r', t'）为通过随机替换（h, r, t）中的一个元素为另一个实体或关系的负采样方法得到的一个负例三元组。整个 loss function 的优化目标为使得正例三元组和负例三元组的打分之间的距离尽可能更大。基于翻译的知识图谱表示学习模型还包括 TransH, TransR, TransD, TranSparse, TransG, RotatE 等。

2.1.1.2 基于张量分解的模型

一个知识图谱可以看成是一个大的三阶张量，利用张量分解的思想可以将这个大尺寸的三阶张量分解为低维的实体矩阵和低维的关系张量乘积的形式，用以判断每个三元组成立的可能性，典型代表模型为 RESCAL [3]。RESCAL 模型的原理如下图所示：

在三阶张量中的每个位置表示第 i 个实体和第 j 个实体之间是否满足第 k 个关系，利用分解后的低维的实体和关系嵌入表示可以还原出三阶张量中的每个位置上的真值。RESCAL 的打分函数为：

其中，h 和 t 分别为实体关系的嵌入表示，Mr 表示关系的低维张量表示。基于张量分解的知识图谱表示学习模型还包括 DisMult, HolE, ComplEx 等。

2.1.1.3 基于神经网络的模型

对于每个关系，可以用一组神经网络的参数来表示，输入为头实体和尾实体的嵌入表示，输出为当前三元组成立的可能性，经典模型为 NTN [4]。NTN 模型的结构图为：

可以看出，NTN 的整个网络结构包括针对头实体和尾实体的线性映射和双线性映射，激活函数和关系 r 的显式参数表示。NTN 的打分函数为：

基于神经网络的知识图谱表示学习模型还包括 ConvE, ConvKB 等。

2.1.1.4 基于图神经网络的模型

整体模型为一个 encoder-decoder 架构，encoder 部分通过图卷积神经网络（GCN）将实体的邻域信息进行聚合，来更新实体的表示，decoder 部分用三元组打分函数来对更新后的实体表示和关系表示进行打分并进一步训练参数，经典算法为 RGCN 模型 [5]。RGCN 模型是最早将图卷积神经网络（GCN）引入知识图谱表示学习的研究，模型结构为：