1. Introduction
word Embedding方式虽然在很多NLP任务中都已经成为标配,但是这种方法不能很好的区分一词多义(polysems),因此近年来有很多关于Sense Embedding的研究。sense embedding技术要解决的一个突出问题就是meaning conflation deficiency,它希望通过直接建模单词的不同含义来缓解这种缺陷。目前,关于这个技术,有两种方向:unsupervised&knowledge-based。
meaning conflation deficiency:将每个词映射到语义空间中的一个点会产生一个比较严重的问题:这种做法忽略了词可以有多种含义的事实,它把单词所有的含义都合并进一个表示向量中去,将不同的(甚至可能是不相关的)含义混淆到一个单一的表示中,会妨碍一个以这些表示为核心的nlp系统的语义理解。这个语义合并操作也会对准确的语义建模产生额外的负面影响,比如,一些语义不相关而含义相似的词在语义空间中被拉近,比如两个语义不相关的单词,“老鼠"和"屏幕”,因为他们与"mouse"这个单词的两种含义的相似性(啮齿动物和计算机输入设备),会在语义空间被拉近。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NbXG8Sqx-1632813303682)(https://github.com/onedreame/onedreame.github.io/blob/master/img/embeddings/meaning_conflation_deficiency.png)]
2. 技术路线
2.1 UNSUPERVISED SENSE EMBEDDINGS
无监督的词义表征仅基于从文本语料库中提取的信息来构建。词义诱导(word sense induction),即自动识别词的可能含义,是这些技术的核心。无监督模型通过分析文本语料库中的上下文语义,推导出一个词的不同意义,并根据从语料库中获得的统计知识来表示每个意义。根据模型所使用的文本语料类型,我们可以将无监督意义表示分为两大类:
-
只利用单语语料库的技术
这种技术同样可以分为两个流派:
(1)clustering-based (也称为two-stage) models
这类模型首先推导含义,然后为这些含义学习表示。
这方面的开创性工作是语境组辨析(context-group discrimination, CGD),该方法是为了解决语义标注数据的知识获取瓶颈和对外部资源的依赖,尝试自动进行词义辨析。CGD方法的基本思想是通过对出现歧义词的语境进行聚类计算,从语境相似性中自动推导含义。更具体的说,一个歧义词 w w