【EL】MOLEMAN: Mention-Only Linking of Entities with a Mention Annotation Network 论文笔记

最新推荐文章于 2024-07-25 12:32:58 发布

Vincy_King

最新推荐文章于 2024-07-25 12:32:58 发布

阅读量318

点赞数

本文链接：https://blog.csdn.net/qq_42801194/article/details/122412420

版权

NLP 同时被 3 个专栏收录

47 篇文章 17 订阅

订阅专栏

期刊阅读

32 篇文章 1 订阅

订阅专栏

Entity Linking

5 篇文章 1 订阅

订阅专栏

这篇可以说是在Entity Linking in 100 Languages这篇论文的基础上改进的。

1. Abstract

本文提出了一种基于实例的最近邻实体链接方法。与大多数表示每个实体的单一向量的先前实体检索系统不同，作者构建了一个上下文化的提及编码器，它学习将同一实体的相似提及放在向量空间中而不是mention不同实体更接近。这种方法允许所有提到的实体都作为“类原型”，因为推理涉及从训练集中完整的标记实体集合中检索，并应用最近的提及邻居的实体标签。本文模型是在来自维基百科超链接的大型多语言语料库上训练的，并对7亿次提及的索引执行最近邻推理。它更容易训练，给出更多可解释的预测，并且在两个多语言实体链接基准测试上优于所有其他系统。

2. Introduction

2.1 Motivation

目前实体链接方法用文本描述 $d_e$ 表示每个实体，使用双编码器 $f(m)和g(d_e)$ 将这些描述和将提到的实体 $m$ 语境化到一个共享向量空间中，并将每个提及实体对评分为它们编码之间的内部积【Botha et al., 2020; Wu et al.,2019】。通过将 $e 和 m 之$ 间的交互限制在一个内部积上，这种方法允许预先计算所有的 $g(d_e)$ ，并使用最大的内部积搜索(MIPS)快速检索得分最高的实体。

许多实体出现在不同的上下文中，这可能不容易在单一的高级描述中被捕获。此外，当需要在zero-shot设置中添加到索引时，可能很难获得高质量的描述。作者认为，这两个问题都可以通过允许实体mention自己作为范例来解决。

此外，从mention集中检索可以产生更可解释的预测，因为是直接比较两个mention，并且允许更容易地利用大量多语言训练数据，而无需强迫选择使用哪种语言来进行实体描述。

2.2 本文内容

作者提出了一种新的方法(MOLEMAN1)，它维护了双编码器架构，但在两边都使用了相同的mention编码器。实体链接完全被建模为mention之间的映射，其中推理涉及对训练集中所有实体的所有已知提及进行最近邻搜索。使用与模型F完全相同的提及编码器架构和训练数据来构建MOLEMAN。在Mewsli-9和Tsai和Roth数据集上，MOLEMAN的性能显著优于模型F，特别是在低覆盖率语言和更罕见的实体上。

作者发现每个实体只要几次mention就达到了很高的准确性，这表明可以添加新的实体或现有的实体可以通过标记少量的新提及来修改现有的实体。最后，作者在研究充分的TACKBP-2010数据集上，将大量多语言MOLEMAN模型与更昂贵的纯英语双编码器架构进行比较，表明即使在这种情况下，该模型也具有竞争力。

3. Conclusion\Discussion

作者将实体链接问题重新定义为一个更通用的提及编码任务的应用程序。这种方法与对测试提及进行聚类以改进推理的方法有关，也可以视为交叉文档共引用解析的一种形式。作者还从最近基于实例的语言建模方法中获得灵感。

实验表明，采用基于实例的方法来进行实体链接可以获得更好的检索性能，特别是在罕见的实体上，添加少量的提及会比单一的描述获得更好的性能。在未来的工作中，作者希望探索这种基于实例的方法在实体知识相关任务中的应用以及实体发现中。

4. Method

4.1 Task definition

本文训练了一个模型，通过在上下文中对一组与实体链接的索引提到进行排序来执行实体链接。形式上，让一个文元上下文 $x=[x_1,...,x_n]$ 是词汇表V中的 $n$ 个标记序列，其中包括指定的实体跨度标记。一个实体链接的元上下文 $m^i=(x^i,e^i)$ 将mention与来自一组预定实体 $\varepsilon$ 配对。 $M_I=[m^1,...,m^k]$ 是一组上下文中的实体链接mention， $entity(·):M_I→\varepsilon$ 是一个函数，返回与 $m^i$ 关联的实体 $e^i∈\varepsilon$ ， $x (\cdot)$ 返回令牌序列 $x^i$ 。

本文目标是学习一个函数 $\phi(m)$ ，它将一个上下文中任意提到的标记序列 $m$ 映射到一个固定的向量 $h_m∈R^d$ ，其属性为

$y^*=entity(\arg\max_{m'∈M_I}[\phi(x(m'))^T\phi(x_q)])$

给出了对上下文中查询mention $x_q$ 的真实实体标签的良好预测 $y^∗$ 。s

4.2 Model

最近最先进的实体链接系统采用了双编码器架构，在上下文中嵌入提及和实体表示。我们还采用了双编码器架构，但我们在上下文中提到（以下是提到）与其他提及相比，没有统一的实体表示。双编码器将一对提及项（m、m0）映射到一个分数：

$s(m,m')=\frac{\phi(m)^T\phi(m')}{||\phi(m)||||\phi(m')||}$

其中 $\phi$ 是一个学习的神经网络，它将输入编码为d维向量。

这里我们来看看《Entity Linking in 100 Languages》的公式

先前的研究表明，双编码器体系结构可以在密集的向量空间中编码实体和上下文提及，以便于通过最近邻搜索有效地检索实体，因此本文也采取了同样的方法。双编码器将一个提及实体对 $(m, e)$ 映射到一个分数： $s(m,e)=\frac{\phi(m)^T\psi(e)}{||\phi(m)||||\psi(e)||}$

其中， $\phi和\psi$ 是学习过的神经网络编码器，它们将它们的参数编码为d维向量(d=300，匹配之前的工作)。

是不是很熟悉？

4.3 Training Process

使用Botha等人构建的104种维基百科提及集合构建了一个提及对的数据集。
使用辅助交叉熵损失来对抗从当前模型采样的hard negatives
mention表示包括页面标题和提到周围的一个窗口，特别mention边界token标记mention跨度。上下文大小为64个标记。
作者尝试添加可用的实体描述作为额外的“伪mention”。这些构造方式类似于提及的表示。有机和伪提及使用不同的令牌类型标识符集输入BERT。
用由每个实体的描述和随机提及形成的额外提及对来补充训练集，添加38M的训练对，并将这些描述添加到索引中，将实体集扩展到20M。
对训练提到的索引执行一个分布式的强力最大内积搜索。在这个搜索过程中，可以只返回每个实体得分最高的mention，这改进了基于实体的召回或者所有mention。

d=300，匹配之前的工作)。

是不是很熟悉？

4.3 Training Process

使用Botha等人构建的104种维基百科提及集合构建了一个提及对的数据集。
使用辅助交叉熵损失来对抗从当前模型采样的hard negatives
mention表示包括页面标题和提到周围的一个窗口，特别mention边界token标记mention跨度。上下文大小为64个标记。
作者尝试添加可用的实体描述作为额外的“伪mention”。这些构造方式类似于提及的表示。有机和伪提及使用不同的令牌类型标识符集输入BERT。
用由每个实体的描述和随机提及形成的额外提及对来补充训练集，添加38M的训练对，并将这些描述添加到索引中，将实体集扩展到20M。
对训练提到的索引执行一个分布式的强力最大内积搜索。在这个搜索过程中，可以只返回每个实体得分最高的mention，这改进了基于实体的召回或者所有mention。

Vincy_King

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【EL】MOLEMAN: Mention-Only Linking of Entities with a Mention Annotation Network 论文笔记

这篇可以说是在Entity Linking in 100 Languages这篇论文的基础上改进的。1. Abstract本文提出了一种基于实例的最近邻实体链接方法。与大多数表示每个实体的单一向量的先前实体检索系统不同，作者构建了一个上下文化的提及编码器，它学习将同一实体的相似提及放在向量空间中而不是mention不同实体更接近。这种方法允许所有提到的实体都作为“类原型”，因为推理涉及从训练集中完整的标记实体集合中检索，并应用最近的提及邻居的实体标签。本文模型是在来自维基百科超链接的大型多语言语料库上训
复制链接

扫一扫

专栏目录