笔记整理 | 谭亦鸣,东南大学博士生
来源: ECIR 2021
在这篇工作中,作者对两种SOTA实体对齐方法做了广泛的研究:首先仔细分析了现有benchmark的过程,并论证了其中存在一些缺陷,使得原始方法给出的实验结果之间可能存在不可对比的情况;另一方面,作者怀疑存在一种普遍的直接对测试集做超参数优化的处理,这种情况将会导致论文发表的实验性能的可靠性(价值)不那么高。因此,本文筛选了一种具有代表性的benchmark数据集样本,分析它的特征,同时,考虑到实体的表示对于系统性能的决定性影响,作者对实体表示的不同初始化方案也进行了测试。进一步的,作者使用共同的训练/验证/测试集在所有数据集和所有方法上进行了实验评估,从结果上看,虽然大多数情况下,SOTA方法都优于baseline,但是当数据集包含噪声时,则出现明显性能下降。
首先作者对现有方法的共性做了说明:
1.大多数方法基于GNN
2.使用基于表示学习的实体名特征
3.考虑了KG中不同类型的关系(在预处理过程中聚合不同类型的关系)
基于这些共性,作者选择了在近期工作中效果较好的关系感知-双图卷积网络(RDGCN),此外,也引入了深度图匹配共识(DGMC)出于以下两个因素:i.前面提到的工作未提到该方法 ; ii.在该方法没有使用关系类型信息的条件下,取得了非常好的性能。
实体对齐数据集分析: