**
Improved Word Representation Learning with Sememes
**
作者简介
该论文选自 ACL 2017
作者:Yilin Niu, Ruobing Xie, Zhiyuan Liu, Maosong Sun。
摘要
义原是词义的最小语义单位,每个词义的含义通常由几个义原组成。在文章中,作者提出单词义原信息可以提高词表示学习(WRL),它将词映射到低维语义空间中,并作为许多NLP任务的基本步骤。核心思想是利用单词义原来准确地捕获特定上下文中单词的确切含义。更具体地说,作者遵循Skip-gram的框架,并提出了三个义原编码模型来学习义原,词义和单词的表示形式,在其中应用注意力方案检测各种上下文中的词感。作者在两个任务上进行了实验,包括单词相似度和单词类比。结果表明,该模型明显优于基线。
1.引言
在文章中,作者旨在将单词义原融入词表征学习(WRL),并在低维语义空间中学习改进的词嵌入。WRL是许多自然语言处理任务的基础和关键步骤,例如语言建模,神经机器翻译。
从之前的研究中,作者得出词义消歧对于WRL来说是至关重要的,他们认为HowNet中词义的义原注释可以为这两项工作提供必要的语义规则。为探索其可行性,作者提出了一个新的SE-WRL模型,该模型可以同时检测和学习词表示。即该框架将每个词义视为其义原的组合,并根据它们的上下文迭代地进行词义消歧,并通过在word2vec中扩展Skip-gram来学习义原、词义和单词的表示。在此框架下,基于注意力的方法会根据上下文自动选择合适的词义。为了充分利用义原,本文作者针对SE-WRL提出了三种不同的学习策略和注意策略。
实验中,作者通过单词相似性和单词类比对该模型进行评估,结果证明该模型明显优于其他基线。尤其是在单词类比方面,表明该模型可以在义原信息的帮助下建立更好的知识表示,也暗示了该模型在词义消歧方面的潜力。
2.相关工作
2.1词表示
(1)one-hot
问题:数据稀疏,没有考虑数据之间的语义关系。
(2)分布式表示
思想:将所有单词投影到一个连续的低维语义空间中,将每个单词视为一个向量。功能强大,单词分布式表示能够在向量空间中编码语义,是许多自然语言处理任务的基本和必要输入。
(3)CBOW和Skip-gram
思想:通过最大化单词和它们的上下文之间的预测概率来学习单词表示。
问题:仅仅为每个单词安排了一个向量