【论文阅读笔记】From Word to Sense Embeddings:A Survey on Vector Representations of Meaning

最新推荐文章于 2023-02-23 20:43:27 发布

cskywit

最新推荐文章于 2023-02-23 20:43:27 发布

阅读量636

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/cskywit/article/details/84450001

版权

机器学习专栏收录该内容

96 篇文章 17 订阅

订阅专栏

论文发布日期：2018.10.26

论文作者：Jose Camacho-Collados，Mohammad Taher Pilehvar

本文是一篇关于词向量表示的最新综述文章，从word embedding到sense embedding的演变过程，sense embedding的研究分类和进展，评估embedding效果的方法，embedding的应用场景、未来可能的发展方向等展开论述，没有过多的原理或者公式，从比较广泛的维度介绍了embedding，并给出了一些进行某个子领域深入探索的推荐阅读文章。本文广度足够，深度不够，适合宏观了解，并根据文章中推荐的论文深入某一领域研究。

文章指出常用的word Embedding方式虽然在很多NLP任务中都已经成为标配，但是这种方法不能很好的区分一词多义(polysems)，因此近年来有很多关于Sense Embedding的研究。作者将Sense Embedding的研究分为两个大类：unsupervised和knowledge-based。其中：unsupervised方式直接从文本语料库中学习embedding，knowledge-based则是利用外部的sense inventory，如WordNet。文章列举了这两大类各自的很多进展，也列举了结合两种方式的最新研究。

同时本文从四个维度对比了两类方法：1、可解释性：：unsupervised方式生成的embedding可解释性较差，knowledge-based是基于人工标注的知识库，因此解释性较好，但knowledge-based严重受限于知识库，对知识库意外的词汇泛华较差。2、适应不同领域的能力：unsupervised比knowledge-based方式强。3、语义力度：在很多NLP应用中，knowledge-based方式由于人工标注，可以区分很多一词多义，但在一个特定的上下文场景中，一个词语往往只具有某一种词义，因此稍微显得过犹不及，需要将粗粒度和细粒度的词义融合。4、语义合成性：主要目的是在某个特定上下文语境中选择一个词语的某一种词义而不引入改词的其他词义。

本文最后就一些未来可能的研究方向进行了阐述：1、常识推理还没有被深入研究。2、多数模型还只是针对英语，针对其他语言的还不多。3、针对不同的下游NLP任务，将sense Embedding整合进去的最好方式还未知。4、pre-disambiguration是否必须。5、sense是否必须是离散表示。6、sense是否必须要和知识或sense inventory关联。7、sense是否需要依赖于上下文动态的学习得到。