目录
论文阅读:Zero-shot Word Sense Disambiguation using Sense Defifinition Embeddings
论文阅读:Zero-shot Word Sense Disambiguation using Sense Defifinition Embeddings
0 摘要
词义消歧(WSD)是自然语言处理(NLP)中一个长期存在但尚未解决的问题)。 由于注释过程昂贵,WSD语料库通常规模很小。 目前有监督的WSD方法将语义视为离散的标签,并且还利用预测训练过程中未出现的单词的最频繁意思(MFS) 这导致在罕见和未出现的语义上表现不佳。 为了克服这一挑战,我们提出了扩展WSD合并语义嵌入(EWISE),这是一个监督模型,通过预测连续的感知嵌入空间而不是离散的标签空间来执行WSD。 这使得EWISE可以在未出现的意思上进行概括,从而实现泛化的的Zeroshot学习。
为了获得目标语义嵌入,EWISE利用语义定义。 EWISE利用WordNet关系学习了一种新的意义定义的句子编码器,也学习了最近提出的知识图嵌入方法ConvE。 我们还比较了EWISE和其他在大语料库上预先训练的句子编码器,以生成定义嵌入。 EWISE实现了最先进的WSD性能。
1 介绍
歧义词例子:
a. he wore a vest and tie.(解释:neckwear consisting of a long narrow piece of material)
b. their record was 3 wins,6 losses and a tie.(解释:the finish of a conest in which the winner is undecided)
本文研究all-words的WSD任务,目标就是校区语料库中所有的词的歧义。
有监督和半监督方法把目标词义当作离散标签,这限制了模型对于训练数据中不常出现的词义的泛化能力。此外,对于训练过程未出现的单词的消歧,可以使用从WordNet等外部资源获得,使用Most-Frequent-Sense(MFS)的策略方法。
为了解决 这些问题,引入基于无监督知识方法unsupervised knowledge-based (KB),这些方法仅依赖词汇资源(比如WordNet)。KB方法包括基于上下文定义重叠的方法,或基于词汇资源结构属性的方法。
Raganato等人把WSD作为一项神经序列标记任务,进一步提高了SOTA的水平,但是由于昂贵的注释过程,缺乏词义注释数据从而限制有监督方法的泛化能力。虽然Luo等人将采取定义的方法克服WSD平静,但是这些方法仍然收到限制,因为它们将词义视为离散标签。
本文提出的假设:有监督方法可以利用词汇资源改善WSD出现和未出现的词和词义,本文提出Extended WSD Incorporating Sense Embeddings (EWISE),EWISE学习一个连续的词义空间嵌入作为目标,这可以达到泛化零样本学习,即可以试别出现过和未出现过的词义。EWISE利用了词汇资源的词义定义和附加信息。
本文认为,对于词义的表示学习,手动编码到定义中的NLP信息包含丰富的信息来源,为了获得定义嵌入,本题提出一种新的学习框架,利用Knowledge Graph (KG)嵌入方法。同时,本文还比较了在大型语料上预先训练的句子编码器。
1》提出了EWISE,学习结合了词义注释的数据、字典定义和词汇知识库。
2》本文建议使用词义嵌入而不是离散标签作为监督WSD的目标,
3》通过广泛的评估,我们证明了EWISE在最先进的基线上的有效性。
2 相关工作
Zhong等人提出,有监督的WSD经典方法依赖于为每个单词独立地提取潜在的相关特征和学习分类器;Iacobacci等人提出,使用分布词表示的扩展;Melamud等人提出,半监督的方法从未标注的数据中学习上下文表示,Yuan等人提出,标签传播;Raganato等人提出,用于句子联合消歧的神经序列模型。左右这些方法都依赖于词义标注数据以及额外的未标注的语料库。
Lexical resources:提供了关于单词和其词义的 重要知识来源。
Bahdanau等人表明,神经网络可以从字典中提取语义信息,本文中,使用字典定义来获取词义的表示。
在Lesk算法中,字典定义已经用于WSD,Banerjee等人在原始的Lesk算法上作出修改,无论是原始的还是修改过的Lesk算法,包括使用的词嵌入,其假设是,正确的词义定义与被使用的单词的上下文有很高的重叠。这些方法往往依赖于对自然语言文本及其定义的洞察力的启发式。Luo等人提出,光泽度(定义)增强神经方法(gloss (defifinition)-augmented neural approaches),它继承了一个模块来评分定义-上下文相似性,达到了SOTA的效果。
和这些模型不同,本文使用了定义嵌入作为神经网络模型的目标空间,而在监督设置中学习。同时,本文不依赖任何重叠启发式,并使用一个单一的定义,WordNet提供的一个给定的定义。
获取定义连续