论文阅读《A Re-evaluation of Knowledge Graph Completion Methods》

Jiawen9

已于 2023-03-30 15:29:14 修改

阅读量316

点赞数

分类专栏： # 知识图谱文章标签：知识图谱论文阅读机器学习深度学习自然语言处理

于 2023-03-30 15:09:19 首次发布

本文链接：https://blog.csdn.net/cjw838982809/article/details/129857755

版权

知识图谱专栏收录该内容

13 篇文章 3 订阅

订阅专栏

论文链接：添加链接描述
研究背景：为什么NN算法效果好但在不同数据集表现不同
现实世界的知识库通常是不完整的，这激发了自动预测缺失链接的研究。知识图谱补全(KGC)的一种流行方法是将实体和关系嵌入到连续的向量或矩阵空间中，并利用设计良好的得分函数f(h, r, t)来衡量三元组(h, r, t)的合理性。
之前的方法大多使用基于平移的方法，最近，大量基于神经网络的方法被提出。它们具有复杂的得分函数，这些函数利用了包括卷积神经网络、循环神经网络、图神经网络以及胶囊网络在内的“黑箱”神经网络。
虽然其中一些方法取得了相当高的性能提升，这在不同的数据集上并不一致。此外，人们现在对这些不寻常的行为没有进行深入分析。
在本文中，作者分析了这个问题，发现这归因于这些方法使用了不恰当的评估协议。
NN类算法在不同数据集上显示出不同的增益
最近提出的几个方法报告了在特定数据集上的高性能提升。然而，它们在另一个数据集上的性能并没有持续提高。
在这里插入图片描述
如图是不同方法在FB15K-237和WN18RR数据集上的MRR与ConvE的对比。
有效三元组与负三元组的得分分布
我们发现，对于最近的一些基于NN的方法，在这两个数据集上存在不一致的增益。
例如，在 ConvKB中，相比在FB15k-237上的ConvE有21.8%的提升，但在WN18RR上退化了42.3%，这令人惊讶，因为该方法据称比ConvE 更好。
另一方面，像RotatE和TuckER这样的方法在两个基准数据集上都给出了一致的提升。
在这里插入图片描述
一个例子，使用ConvKB模型获得的“有效三元组”和“负三元组”的得分分布。
58.8%的负采样三元组获得与有效三元组完全相同的分数。（越低越好）
在14,541个负采样三元组中，8,520个与有效三元组的得分完全相同。
在这里插入图片描述
在FB15K-237数据集上评估时，与有效三元组分配分数相同的负三元组数量的频率。结果显示，对于像ConvKB和CapsE这样的方法，大量的负三元组得到了与有效三元组相同的分数，而对于像ConvE这样的方法，这种情况很少出现。
平均而言，在FB15K-237的整个评估数据集上，ConvKB和CapsE分别有125和197个实体与有效三元组的分数完全相同，而ConvE的分数约为0.002，几乎可以忽略不计。
从NN类算法的forward中寻找原因
在这里插入图片描述
我们绘制了有效三元组 ReLU激活后变为零的神经元比例与它们在 FB15k-237 数据集上的归一化频率的对比。
结果显示，在ConvKB和CapsE中，应用ReLU后有很大一部分神经元(分别为 87.3%和 92.2%)变为零。
然而，对于ConvE，这个计数大大减少(约 41.1%)。由于几乎所有神经元的归零(ConvKB 至少为 14.2%，CapsE 为 22.0%)，几个三元组的表示在前向传递期间变得非常相似，从而导致获得完全相同的分数。
不恰当的评估协议是NN方法异常行为背后的关键原因
在本节中，我们提出了知识图谱补全中可以采用的不同评估协议。我们进一步表明，不恰当的评估协议是最近一些基于nn的方法异常行为背后的关键原因。
如何处理相同的分数? 评估方法的一个重要方面是决定如何打破三元组同分的平局。
更具体的说，在给候选集打分时，如果模型中有多个得分相同的三元组，决定选择哪一个三元组。
我们为KGC设计一个通用的评估方案，它由以下三个不同的协议组成：
TOP：正确的三元组被插入到候选集的开头。
BOTTOM：正确的三元组被插入到候选集的末尾。
RANDOM：正确的三元组被随机的放置到候选集中。
基于三个评估协议的实验结果
在这里插入图片描述基于三个评估协议的定义，可以明显看出 TOP 评估协议并没有严格评估模型。它获得了有偏差的模型，为不同的三元组提供相同的分数，这是一种不恰当的优势。另一方面，底层评估协议在推理时间内可能对模型不公平，因为它惩罚了给多个三元组提供相同分数的模型，如果许多三元组与正确的三元组得分相同，那么正确的三元组将获得尽可能最小的排名。因此，随机是最好的评估技术，它对模型既严格又公平。这符合我们在现实世界中遇到的情况: 给定几个得分相同的候选人，唯一的选择就是随机选择其中一个。因此，我们建议对所有的模型性能比较使用随机评估方案。
研究结论
在我们的实验中，我们将现有的 KGC 方法分为以下两类:
在不同评估方案下提供一致性能的方法。对于本文的实验，我们考虑了三种这样的方法- ConvE, RotatE 和 TuckER。
基于神经网络的方法，其性能受到不同评估协议的影响， ConvKB, CapsE, TransGate2 和 KBAT 都属于这一类。
我们研究了使用顶部和底部协议的效果，并将它们与随机协议进行比较。在他们的原始论文中， ConvE、RotatE 和 TuckER 使用了类似于所提出的随机协议的策略，而ConvKB、CapsE和KBAT则使用了TOP协议。我们还研究了多次运行的随机协议中的随机误差，我们报告了使用不同随机种子的5次运行的平均值和标准差。