【论文阅读笔记】From Word to Sense Embeddings:A Survey on Vector Representations of Meaning

论文发布日期:2018.10.26

论文作者:Jose Camacho-Collados,Mohammad Taher Pilehvar

       本文是一篇关于词向量表示的最新综述文章,从word embedding到sense embedding的演变过程,sense embedding的研究分类和进展,评估embedding效果的方法,embedding的应用场景、未来可能的发展方向等展开论述,没有过多的原理或者公式,从比较广泛的维度介绍了embedding,并给出了一些进行某个子领域深入探索的推荐阅读文章。本文广度足够,深度不够,适合宏观了解,并根据文章中推荐的论文深入某一领域研究。

        文章指出常用的word Embedding方式虽然在很多NLP任务中都已经成为标配,但是这种方法不能很好的区分一词多义(polysems),因此近年来有很多关于Sense Embedding的研究。作者将Sense Embedding的研究分为两个大类:unsupervised和knowledge-based。其中:unsupervised方式直接从文本语料库中学习embedding,knowledge-based则是利用外部的sense inventory,如WordNet。文章列举了这两大类各自的很多进展,也列举了结合两种方式的最新研究。

       同时本文从四个维度对比了两类方法:1、可解释性::unsupervised方式生成的embedding可解释性较差,knowledge-based是基于人工标注的知识库,因此解释性较好,但knowledge-based严重受限于知识库,对知识库意外的词汇泛华较差。2、适应不同领域的能力:unsupervised比knowledge-based方式强。3、语义力度:在很多NLP应用中,knowledge-based方式由于人工标注,可以区分很多一词多义,但在一个特定的上下文场景中,一个词语往往只具有某一种词义,因此稍微显得过犹不及,需要将粗粒度和细粒度的词义融合。4、语义合成性:主要目的是在某个特定上下文语境中选择一个词语的某一种词义而不引入改词的其他词义。

      本文最后就一些未来可能的研究方向进行了阐述:1、常识推理还没有被深入研究。2、多数模型还只是针对英语,针对其他语言的还不多。3、针对不同的下游NLP任务,将sense Embedding整合进去的最好方式还未知。4、pre-disambiguration是否必须。5、sense是否必须是离散表示。6、sense是否必须要和知识或sense inventory关联。7、sense是否需要依赖于上下文动态的学习得到。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值