每天读一篇论文5--MWE as WSD: Solving Multiword Expression Identification with Word Sense Disambiguation

提出了一种基于Bi -encoder模型过滤器的基于规则的候选提取的MWE识别方法,取得了与其他MWE提取系统竞争的结果。该模型还执行词义消歧,允许同时处理这两个任务。该方法具有特别高的精度,并且主要受限于它的低召回率,表明这是一个词库大小的函数。最后,将Poly -encoder应用到这些任务中进行实验,引入了一种更适合MWE识别和词义消歧的改进Poly -encoder架构。

一、Introduction:

Word sense disambiguatio(WSD)n, the task of predicting the appropriate sense for a word in context, and multiword expression identification, the task of identifying multiword expressions in a body of text, are both tasks that deal with determining the meaning of words in context.词义消歧,即在上下文中为单词预测合适的意义的任务,以及多词表达识别,即识别文本中的多词表达的任务,都是在上下文中处理确定单词意义的任务。

contributions:

  • We present an approach to MWE identification combining rule-based candidate generation with a Bi-encoder filter提出了一种基于规则的候选生成和双编码器滤波器相结合的MWE识别方法
  • We demonstrate that this approach produces models capable of both performing WSD and filtering MWE candidates, achieving state-ofthe-art results on the DiMSUM dataset证明了该方法产生的模型能够同时执行WSD和筛选MWE候选,在Di MSUM数据集上取得了最新的结果
  • We propose an updated Poly-encoder architecture that outperforms the standard Polyencoder on these two tasks提出了一个更新的多编码器架构,在这两个任务上优于标准的多编码器

二、Methodology:

explain our approach for solving Multiword Expression Identification and Word Sense Disambiguation.

1、WSD Bi-encoder

The model we use for WSD is a Bi-encoder,  consisting of a context encoder Tc and gloss encoder Tg, both of which are BERT models. 由上下文编码器Tc和光泽度编码器Tg组成,两者都是BERT模型

  • Given an input context sentence c = (w0, ...wn) containing the target words to disambiguate,
  • tokenize it and use the context encoder to produce representations for each token. Because tokenization may break words up into multiple subwords - and because as described below, we also use this model for multiword expressions representations are computed as an average of all subwords in a word or MWE.
  • 给定一个输入上下文句子c = ( w0 , ... wn),包含要消歧的目标词,我们首先对其进行权标化处理,并使用上下文编码器为每个token生成表示。由于标记化可能将单词分解成多个子词- -并且正如下面所述,我们也使用这个模型,因为多词表达式是一个单词或MWE中所有子词的平均值。
  • for each target word, the gloss encoder produces representations for each of the word’s senses. We pool the encoder output by taking the representation of the [CLS] token for each sense.
  • Scores corresponding to possible senses for each target word are computed as the dot product of the word and sense representations.
  • the model predicts the sense with the highest score.

2、MWE Identification Pipeline

Our system for MWE identification is a three-stage pipeline, consisting of one or more detector functions which generate possible MWEs from an input sentence, zero or more filter functions which filter these candidates, and up to one resolver which chooses between two MWE candidates in case of overlap由一个或多个从输入句子中产生可能的MWE的检测器函数、零个或多个过滤这些候选MWE的过滤函数以及最多一个在两个MWE候选之间进行选择的解析器组成。

2.1Bi-encoder Filter

由于我们所有的MWE候选项都对应于输入句子中的单词(以及相应的子词),因此我们可以为每个MWE生成一个表示rw,以及它们每个可能的感官的分数,与我们对单词做的相同。然而,由于没有任何一个MWE会对应于该候选为假阳性的情况,因此我们定义一个特殊的感官n来表示其他感官都不正确的情况( I.E.这个候选人实际上不是MWE ,或者至少不是我们词典中的一个)。由于n没有光泽度,我们不能使用光泽度编码器为其计算一个表示,而是使这个表示成为一个可学习的参数矩阵rn,其维度与模型的隐藏尺寸相同。A score corresponding to the candidate not being an MWE can then be computed as below: φ(w, n) = rw · rn 这就为我们的BiEncoderFilter提供了以下条件,它排除了"非MWE "得分高于其他感官得分的任何MWE候选人。因此,该滤波器只保留下述成立的候选:虽然过滤后不常见,但在候选人之间有重叠的情况下,我们的解析器选择其最高得分感与"不是MWE "感之间差异最大的MWE。

 2.2局限性

MWE管道的输出只能是生成的原始候选集的子集,根据定义,这些候选集是词典中存在的MWE的子集。此外,由于Bi Encoder Filter使用注释文本作为输入,因此要求所有MWE词库条目都有定义。因此,本方法依赖于一个高质量的词库,其中包括MWE引理和可能的定义,这使得它不适用于像这样的数据可能尚未公开的场景,如低资源语言。然而,我们乐观地认为,MWE发现和定义生成的工作将有助于通过自动化部分数据创建过程来缓解这个问题。

三、实验

3.1 Lexicon

use WordNet (Miller, 1995) as our MWE lexicon for all experiments, treating every entry including the character “_” as an MWE. All sense glosses are taken from WordNet 3.0.

3.2 WSD Data

根据WSD中已有的工作,在SemCor数据集( Miller等, 1993)上训练模型,该数据集包含了来自词网的共计226036个标注了语义的示例。

为了使数据除了WSD之外还能用于MWE识别,我们通过以下方式对其进行预处理:

  • 由于Sem Cor中的MWEs与正常词没有区分,我们明确地将引理中包含字符' _ '的词标记为MWEs,这样在训练时这些MWEs的可能标签包括'不是MWE '的义项以及它们通常可用的义项
  • 将滞留成分附加到其母词MWE上,因为Sem Cor中一些不相邻的MWE仅在包含词的子集上标注
  • 由于Sem Cor不包含否定多义词的例子- -多义词的构成要素都存在,但它们在语境中的意义与多义词的任何意义都不匹配- -我们必须自己添加这些例子。我们主要通过自动生成合成负例,使用基于规则的管道及其过滤器来实现。也就是说,我们将无序和/或极度不连续的MWE标记为金标签为"不是MWE "意义的训练样本。我们以这种方式随机添加负训练样本,直到它们占训练数据中MWE样本的50 %左右。

虽然这种方法可以有效地生成大量的反例,它鼓励模型学习用于生成这些合成负例的启发式,而不是学习如何使用上下文和注释中的信息来判断MWE是否合适。为了对抗这一点,我们通过人工的方式对少部分既不乱序也不过分张冠李戴的例子进行注释。注释是通过使用基于规则的管道的变化来提取候选词来完成的。

3.3 训练

使用交叉熵损失进行训练。不同之处在对于MWEs,有一个额外的可能标签,其得分是由"不是MWE "表征和单词表征的点积计算得到的。给定一个词或MWE w,它的黄金义si,和| Sw | = j在词库中的可能义,我们通过每个批次中训练样本(要标注的单词或MWEs)的数量来定义批次大小,并通过调整句子数量和/或屏蔽样本来保持这个数量不变以保存下一个批次。

训练了15个历元,每个历元在dev集上评估一次,并使用性能最好的模型作为最终模型。批大小和其他超参数如学习率由随机扫描决定。

3.4 评价

在两个MWE检测数据集上评估了我们的模型:PARSEME 和DiMSUM数据集。

模型在微调时看到的所有负训练例都是来自模型本身的假阳性,允许模型从错误中学习。

四、结果与讨论

4.1 高精度

我们的微调系统实现了比以往任何MWE识别系统更高的精度。

4.2 召回率很低

即使是完全基于规则的、最小过滤的流水线在召回率方面仍然落后于其他系统。我们将这主要归因于词汇依赖问题;我们的词库中缺失的多词表达根本无法识别,这些发现呼应了词库对于MWE识别的重要性的研究,并表明仅仅通过扩展词库来提高性能是有限的。

4.3 原因分析

对于假阳性:

我们发现大约80 - 90 % 的时间在我们的词库中找到的定义适合在该句子的上下文中标记为MWE的单词的组合,这意味着这些情况下,模型成功地将定义匹配到MWE,但输出仍然不符合金标签注释。这些多词表达中有很多出现在我们的词库中,但在测试集中没有出现,这表明词网的范围与这些数据集分别定义为多词表达之间存在差异

在数据集中的其他地方,也有大量的MWEs被标记为假阳性,但在特定的句子中却没有。在某些情况下,这可能是因为这些词的组合只有在它们具有特定含义或特别是非组合性语义的情况下才被标记为MWEs,但我们所考察的许多例子似乎并非如此。

对于假阴性:

大约85 - 95 %的情况是目标MWE在我们的词库中缺失,因此召回的瓶颈似乎是我们系统的词库。然而,对于在我们的词库中存在MWE的大多数错误否定,它也与一个适合该句中的词语组合的定义有关,这意味着这些错误代表了我们的MWE识别系统失败,而不是词库。总之,我们的分析结果说明了定义和注释MWEs的困难和潜在的主观性,我们希望在未来的工作中进一步探索这一领域。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值