（一）论文：TransGate。

最新推荐文章于 2024-08-29 12:09:23 发布

成道一

最新推荐文章于 2024-08-29 12:09:23 发布

阅读量305

点赞数

分类专栏：论文学习文章标签：知识图谱人工智能

本文链接：https://blog.csdn.net/YI_WSR/article/details/126167061

版权

论文学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

这里记录下自己学习的论文，以作者的论文结构为骨架，做一个系统的整理。

Abstract

Introduction

Embedding with Shared Gate Structure

Gate structure

TransGate Architecture

Triplets Classification

Parameter efficiency of TransGate

Conclusion and Future Work

Abstract

将知识图谱嵌入到连续向量空间中是知识抽取领域一个重要的问题。目前的模型通过专注于从实体中分辨出关系特定的信息，以越来越复杂的特征工程来持续改进嵌入。我们注意到，他们忽视了关系之间的内在联系和尝试去为每个关系设置独特的判别（discriminate）参数集。因此，这些模型潜在地具有高时间复杂度和大规模的参数，这阻止了它们效率地应用在现实世界的知识图谱中。在这篇文章中，我们遵循共享参数的思路，学习到更多具有表现力的特征地同时，减小参数量，避免复杂的特征工程。基于LSTM的门结构，我们提出了一个新模型TransGate和开发了共享判别机制，结果和非判别模型有相似的空间复杂度。此外，为了开发一个更有效率和可扩展的模型，我们使用权重向量重新构造了“门”,使我们的模型与非判别模型相比在时间复杂度方面有了竞争力。我们进行了有关链接预测和三重分类分类的广泛实验。实验表明，TransGate不仅胜过最先进的baseline，而且还大大降低了参数数量。例如，TransGate在参数减少6倍和17倍的情况下，性能优于ConvE和RGCN。这些结果表明，参数共享是一个好的方法去进一步优化嵌入，TransGate在复杂程度和表现能力之间找到更好的平衡。

摘要部分翻译如上。文章的贡献往往是解决文中提出的问题，例如：时间复杂度高，参数太多以至于难以应用到现实场景中。从这里切入，作者提出了TransGate模型，并且简单介绍了该模型所具有的的优势。需要注意的是文中用到的一些术语，包括：discriminate parameter，discriminate models，indiscriminate models。这些直译为判别参数，判别模型，文中也相应的举了例子，但是没有找到确切的定义。

Introduction

目前的知识图谱存在着关系缺失的问题，为了补全不完整的知识图谱，提出了一系列知识图谱嵌入补全模型。作者这里把它们分为两类：Indiscriminate models和discriminate models。

Indiscriminate models：以TransE为例，优点是参数量少，计算简单。缺点是学习能力弱，导致低的参数效率和准确度。在作者看来，实体的特定关系信息识别是提升嵌入质量的关键。discriminate models：表现能力比另一类要强，但是也存在着不足之处，如总是假定关系之间的独立性，尝试为每个关系都设置单独的判别参数（discriminate parameter）。

此外，作者总结了discriminate models在应用于现实场景中的三个难题：（1）参数太多。（2）越来越复杂的特征工程。（3）引入了更多的超参数和预训练防止过拟合。

为了优化嵌入并同时减少参数，我们遵循参数共享的思想，提出了一种新的方法TransGate。与之前试图学习特定关系的判别参数集的方法不同，TransGate只用两个共享门来判别所有关系的特定信息。因此，TransGate在现实世界的知识图谱中的空间复杂性与TransE几乎相同。此外，共享门在不同的关系中共享统计强度，以优化嵌入，而无需复杂的特征工程。

此外，作者总结了这篇文章的特殊贡献。（1）确定了关系之间内在相关性的。（2）提出了TransGate模型，开发了共享判别机制（shared discriminate mechanism）。（3）使用权重向量重新构造了标准“门”。（4）实验表明了在参数大量减少的情况下，仍取得重要的提升。

Indiscriminate Models：TransE，DistMult，ComplEx，CombinE。

Discriminate Models：TransH，TransR/CTransR，TranSparse，TransD，Neural Tensor Network (NTN)。

Other Models：探索通过使用不同的损失函数来提升嵌入。例如：ManifoldE，NLFeat，RUGE。引入深度学习的新技术。例如：ProjE，R-GCN，ConvKB等。

Embedding with Shared Gate Structure

TransGat结构图

Gate structure

门结构是LSTM(Hochreiter and Schmidhuber 1997)的核心机制，它可以让信息有选择的流动，之后被证明在很多不同的应用上都能取得提升。

首先标准门机制使用了全连接层，

公式如下： $f=\sigma (b+W\cdot \left [ x,y \right ])$ 。其中x是当前的输入向量，y是上下文的表示向量。b，W分别是门结构的偏置和权重矩阵。 $\sigma$ 是sigmod函数。

之后，“门”使用哈达玛积（Hadamard product）去过滤信息，

公式如下： $s_f=s\odot f$ 。 $s$ 是我们想要过滤的向量， $s_f$ 是过滤信息之后的向量。 $\odot$ 是哈达玛积（矩阵同位置的元素相乘）。

从理论上讲，一个门可以学会根据输入的固定参数数量来自适应地、非线性地过滤信息。也就是说，我们可以训练一个门，使过滤后的向量与各种x，y相关，而不需要额外的参数。

TransGate Architecture

TransGate的创造：我们假设实体的特定关系信息也会反映关系之间的相关性。换句话说，在相关关系的不同关系特定嵌入向量中应该存在一些共同的特征

TransGate的细节：（1）我们将每个实体和关系嵌入到具有相同维度的连续向量中。（2）为头和尾分别设置了共享门。（3）将实体与关系嵌入一起输入至sigmod层，让他们共同进行判定。（4）将sigmoid层的输出和实体嵌入元素相乘来实现非线性和自适应的特定关系辨别。（5）在头和尾实体的判别信息之间建立翻译操作（translation）。根据得分，我们可以确定该三元组是否有效。

全连接层标准门（TransGate（fc））： $h_r=h\odot \sigma (W\cdot \left [ h,r \right ]+b_h)$

$t_r=h\odot \sigma (W\cdot \left [ t,r \right ]+b_t)$

理论上，我们认为嵌入向量上的每个维度间应该彼此独立，所以出于提高效率的想法，重构了TransGate（wv）: $h_r=h\odot \sigma (v_h\odot h+v_r_h\odot r+b_h)$

$t_r=h\odot \sigma (v_t\odot h+v_r_t\odot r+b_t)$

得分函数选用采用了翻译模型的思路。 $f_r(h,t)=\left | \left | h_r+r-t_r \right | \right |_L_1 /_L_2$

对这些嵌入采用正则化约束。例： $\left | \left | h \right | \right |=1$

Training

损失函数与TransE类似，都是基于translation操作，并且设置了一个边际参数。

优化器： Adam optimizer (Kingma and Ba 2015) 。这个优化器也很常见，pytorch有成熟的轮子。

Complexity Analysis

主要从以下角度分析了各种模型的参数数量。

Experiments

Data Sets

FB15K由于反关系，存在着测试集数据泄露的问题。所以提出了子集，去除了很多关系FB15K-237。

Link Prediction

Triplets Classification

Parameter efficiency of TransGate

Conclusion and Future Work

在未来，将探索以下三个研究方向：（1）我们将探索更好的参数共享机制，并尝试解决知识图谱嵌入中的更多问题。(2) 我们将采用更复杂的技术来增强TranGate，如加入额外的信息、不同的损失函数和自我关注等。 (3) Gate是一个参数高效和快速的算子，它可以组成深度网络。我们将在未来将TransGate扩展到多层模型。

本文的核心内容就是将门机制迁移到知识图谱表示学习领域。为了得到目标参数，作者考虑到了三元组中关系嵌入向量对实体嵌入向量的影响，从而构建了TransGate模型。并且以丰富的实验验证了自己的成果。