【论文笔记】Deep Learning for Entity Matching: A Design Space Exploration

本文链接：https://blog.csdn.net/weixin_40530554/article/details/129090008

本文是介绍基于深度学习的实体对齐的一篇综述
实体对齐(entity alignment)也被称为实体匹配(entity matching)
脏实体问题：
特定属性的值(例如，品牌)在该属性的单元格中缺失，但出现在另一个属性的单元格中(例如，名称)
这通常是由于不准确的属性提取(例如，提取“leather red”作为属性颜色的值，即使“leather”是属性材料的值)
传统的实体对齐解决方案在这种情况下效果不佳。然而，论文认为深度学习可能是此类EM问题的一个有希望的解决方案，因为它可以简单地忽略“属性边界”，并将整个实例视为一段文本，从而在某种意义上回到匹配文本实例的情况。

一般来说，实体对齐测试分为两个阶段:blocking和matching。blocking的目标是将叉乘D × D’ 过滤到一个候选集合C，该集合只包含被判断为可能match的实体提及对。典型的blocking机制假定没有假阴性。候选集合C通常仍然包含对应于不匹配实体提及的对。blocking之后，使用一个matcher来识别提到的真正匹配实体。
本文重点在于匹配器matcher的实现

实体对齐与其他NLP任务的区别

实体链接
实体链接和EM之间的关键区别在于，在实体链接中，目标知识库包含额外的信息，例如实体之间的关系。大多数实体链接解决方案使用此信息在链接[24]期间对多个实体进行集体推理。实体链接的DL方法也不例外。

共指消解：

实体出现在自然语言文本中的时候可能会有不同的形式(or名字)，当这些名词短语或代词出现在一起时，我们根据我们已有的知识或者是上下文信息都清楚地知道它们指代的是同一个实体，那么怎么让计算机自动识别这些指向同一个实体的名词短语或代词呢？这就是coreference resolution要完成的工作。

共指消解虽然与EM相关，但有显著不同，因为它操作的实体指称通常对应于出现在同一文档中的(通常是短的)文本跨度，因此共享相似的上下文。

文本蕴涵
文本蕴涵决定了一个文本摘录的意义是否包含在第二段文本的意义中，即两个意义是否在语义上独立、矛盾或存在一种蕴涵关系，其中一个句子(称为前提)可以引出另一个句子的意义(称为假设)。例如，“a cat is chasing a mouse”这个句子包含了另一个句子“a cat is moving”，与“a cat is sleeping”相矛盾，而与“Tom saw a cat with a yellow eyes”为中性。
一个类似的任务是语义文本相似性，它决定两个给定的文本片段在语义上是否相似。

根据对实体对齐相似的NLP任务的研究，可以得出利用深度学习进行分类的三个维度

(1)语言表示将输入序列转换为编码
(2)摘要技术学习输入序列对的向量表示
(3)用于分析输入序列对的比较方法

基于深度学习的实体对齐模型

根据这三部分，设计出实体对齐的模型
在这里插入图片描述
其中第二部分分为两个步骤：属性汇总与属性比较

根据其他NLP匹配任务使用的方法，提供了一些选择。接下来会分别讨论
在这里插入图片描述
属性嵌入的选择
(1)粒度的选择
字符级嵌入可以在单词不常见的域中提供显著的性能改进，因为它们考虑了许多单词可能在形态上相关的事实(例如，“available”，“availability”和“unavailable”)。字符级嵌入对于词汇表外(OOV)单词(OOV单词可能由于拼写错误而出现)更加健壮，因为它们利用单词的可能子字符串来近似其嵌入。在长尾词汇表很常见、排版错误很普遍的情况下，这将带来更好的性能。
(2)是否预训练
预训练嵌入提供了两个独特的优势:(1)它们导致明显更小的端到端训练时间;(2)它们已经在大型语料库(如Wikipedia、GoogleNews和Gigaword)上进行了训练，因此对语言变体更健壮。预训练的嵌入可能不适合词汇表包含具有高度专门化语义的标记的领域(例如，零售应用程序的产品条形码)。在这种情况下，训练特定于领域的嵌入可以提供更好的性能

属性汇总的选择
将向量通过汇总函数H变为h维向量，将属性特征集中起来
（1）聚合函数
平均、加权平均这种的。
这种类型的总结最大的优点是训练效率，因为通常不涉及学习。然而，依赖于这种总结的模型无法学习输入序列中单词之间的复杂交互。这种总结方法的性能很大程度上取决于嵌入向量的质量。
（2）序列感知的总结
旨在学习输入序列之间的复杂相互关系。使用RNN
这种总结方法的基本优点是允许我们对整个输入序列中编码的上下文进行推理。这种方法的局限性在于:(1)它不能在很长的序列中学习有意义的表示，(2)它不能联合分析输入对来识别序列之间的公共上下文。当输入序列的长度显著不同时，后者会导致显著的性能损失
（3）序列比对
将两个序列都作为输入，并在总结另一个序列时使用其中一个作为上下文。为此，可以围绕注意力机制构建过程H。首先学习计算两个给定单词序列之间的软对齐，然后逐词比较
有一个显著的缺点:它们只利用给定的上下文作为输入，而忽略原始输入序列中存在的任何上下文。因此，在匹配两个实体提及的最具信息量的token是第一个的情况下，注意力方法可能表现不佳。这个问题可以通过将它们与基于顺序的摘要方法相结合来解决
（4）混合
是前面描述的序列感知和序列对齐方法的组合
训练起来成本很高。

属性比较的选择
（1）固定的距离函数
使用预定义的距离度量，如余弦或欧几里得距离。在这里，输出是一个标量，用于捕获所提到的两个输入实体对于所考虑的属性的值的相似程度。使用固定距离函数可以减少训练时间，但会对属性值的相似性施加强先验。
（2）可学习的距离函数
可以使用模型的分类模块来学习相似函数。

代表性的四种深度学习方法

四个解决方案都使用fastText——一个预训练的字符级嵌入，来实现架构模板的属性嵌入模块。此外，所有四种解决方案都使用了一个两层全连接的ReLU HighwayNet，然后是一个softmax层来实现分类器模块。使用HighwayNets是因为它们加快了EM任务的收敛速度，并且比传统的全连接网络产生了更好的经验结果，特别是在小数据集的情况下。但是，这四种解决方案对属性摘要过程使用了不同的选择。

SIF：聚合函数模型
使用一个用于属性摘要的加权平均和一个逐元素的绝对差值比较操作
权值计算：给定一个词w，对应的嵌入通过权重f(w) = a/(a + p(w))进行加权，其中a是一个超参数，p(w)是输入语料库中w的归一化单格频率

RNN：序列感知模型
使用双向RNN(即序列感知方法)进行属性汇总，并使用逐个元素的绝对差值比较操作形成分类器模块的输入。
该模型由两个RNN组成:前向RNN对输入词嵌入序列u进行规则顺序处理(从元素条目u[1]到条目u[t])，产生隐状态f_1:t。后向网络对输入序列进行反向处理，产生隐状态b_t:1。最终的属性汇总表示对应于双向RNN的最后两个输出的拼接，即f_t和b₁的拼接。

注意力模型：序列比对模型
利用可分解注意力实现属性汇总，利用向量拼接实现属性比较。
分为三步：
（1）软对齐
首先在u1和u2的所有 token对上计算软对齐矩阵W。W中的每一行对应u1中的一项，每列对应u2中的一项。这个矩阵的每个元素都是一对元素(u1[k]， u2[m])的权重。通过对所有元素u2[m]∈u2取加权平均来计算每个u1[k]∈u1的编码b1[k]，权重是W的第k行项。
（2）比较
使用具有ReLU非线性的两层HighwayNet将每个嵌入u1[k]∈u1与其软对齐编码b1[k]进行比较。我们将每个u1[k]∈u1的比较表示形式表示为x1[k]。
（3）感知
对u1中所有元素的比较表示进行求和，并通过除以根号|u1|对输出进行归一化。

然后再将u2作为输入序列，u1作为上下文序列重复上述操作

混合:序列感知与注意力
遵循的步骤类似于注意力模型。但与Attention不同的是，它也利用了Bi-RNN获得的u1和u2的序列感知编码
（1）软对齐
软对齐矩阵W与注意力模型相同。不同的是，b1[k]是通过对u2的编码取加权平均来构造的。
u2的编码是通过将~u2传递给一个Bi-RNN并连接Bi-RNN的所有隐藏状态来获得的。
（2）比较
(i)通过与软对齐相同的RNN1传递u1，并将其所有隐藏状态连接起来，得到u1的编码，用u01表示;
(ii)在u01和b1之间进行元素比较。与Attention类似，我们使用带有ReLU的两层HighwayNet来执行这种元素比较。设x1[k]是每个u1[k]∈~u1的比较表示。
（3）感知
(i)首先使用Bi-RNN (RNN2)得到u2的编码，记为g2，取其最后一个隐藏状态为u2的编码;
(ii)我们计算每个元素x1[k]∈x1的权重，方法是将x1[k]与g2连接起来，并通过一个两层的ReLU HighwayNet传递它，然后是一个soft-max层。直观地说，这对应于一种简单的注意机制，即确定每个元素x1[k]作为u2上下文的重要性;
(iii)我们使用这些权重对x1的所有元素取加权平均。

然后再将u2作为输入序列，u1作为上下文序列重复上述操作

实验评估

(1)在结构化EM任务上，DL解决方案与Magellan具有竞争力，但需要更多的训练时间。因此，目前还不清楚DL在多大程度上可以帮助结构化EM。
(2)在文本EM任务(即具有少量属性的实例都是文本blobs)上，DL优于Magellan。如果有“信息性”属性(例如，充满歧视性信息的标题)，收益可能不会很大，否则它可能是显著的。
(3)在脏EM任务上，DL明显优于Magellan。因此，我们发现，在没有劳动密集型数据提取/清洗的情况下，DL非常有前途，优于当前针对文本数据和脏数据的自动EM解决方案。

通过准确度和召回率测量

在可选项的选择上做出的实验结论：
字符级嵌入通常比单词级嵌入获得更高的f1分数。
除非在具有高度专门化词汇表的领域上执行EM，否则不适用预训练模型，从头开始训练没有任何提升
具有交叉序列对齐(Attention和Hybrid)的属性摘要方法优于更简单的方法(SIF和RNN)
执行软对齐的方法在少量训练数据(即小数据集)的情况下更优越的原因。随着训练数据的增加，SIF和RNN更有吸引力，因为它们需要更少的训练时间
属性比较函数中，固定距离函数总体表现较差。对于没有交叉序列比对的方法，可学习的距离函数中，使用元素比较可以使F1提高40%(参见SIF和RNN的结果)。然而，对于具有交叉序列对齐的方法，没有主要选项。

数据量大小对效果的影响：
在结构化数据的情况下，我们看到当数据集大小小于50K时，Magellan优于混合DL模型。随着数据的增加，混合模型开始变得与Magellan相当，并且基本上保持这种状态，直到数据集大小达到200K，此时它的性能略优于Magellan
在纯文本的情况下，我们看到Magellan在数据集大小仅为1K的情况下迅速获得了相对较高的F1分数，这是由于其基于启发式的字符串相似性特征，而混合DL模型则落后于此。在混合模型开始超越麦哲伦之前，需要近10000个数据实例。
随着数据的增加，它的性能会持续稳定地提高，直到我们最终耗尽我们的标记数据实例集。
对于脏结构化数据，当数据集大小只有1K时，Magellan最初优于DL，但当有几千个训练实例时，DL开始优于Magellan。

标签噪声的鲁棒性:
混合模型对噪声相当稳健，特别是在噪声达到30%之前，在此之后，我们看到一个急剧的下降。在结构化和文本数据集上，我们注意到混合模型和麦哲伦模型之间的性能差距随着噪声的增加而增加，这表明混合模型对噪声的鲁棒性更强。

与特定领域EM方法的对比：
与没有领域特定特征的DL模型相比，领域特定特征的提取确实有所帮助。然而，结构化数据集、文本数据集和脏数据集的平均改进分别仅为0.8%、1.1%和1.4%。DL模型能够在不到半天的训练时间内，接近于数月密集的特定领域EM工作的表现。

讨论

深度学习模型的常见错误
（1）领域专有术语的语言变体
DL无法识别领域专有术语与其缩写之间的语义相似性。这就导致了假阴性
（2）缺少高信息量的token
其中一个实体所提到的实体包含一个高信息量的令牌，例如产品代码，而另一个实体所提到的实体中却缺少这个令牌。这就导致了假阴性。
（3）相似但有语义差异的token
DL无法识别非常相似的字符串(例如序列号)之间的语义差异。这会导致误报