漫谈词向量

原文: On word embeddings
作者: Sebastian Ruder
译者: KK4SBB 审校:王艺
责编:何永灿,关注人工智能,投稿请联系 heyc@csdn.net 或微信号 289416419

目录

  • 词向量的来历
  • 词向量模型
    • 语言建模概述
    • 经典的神经语言模型
    • C&W模型
    • Word2Vec
    • CBOW
    • Skip-gram

非监督式学习得到的词向量(word embedding)已经成功地应用于许多NLP的任务中,它常被誉为是一项利器。实际上,在许多NLP任务中,词向量已经完全地取代了传统的分布特征,比如布朗聚类和LSA特征。

去年的ACLEMNLP大会基本被词向量方法所霸占,甚至有人戏称EMNLP更合理的解释应该是Embedding Methods in Natural Language Processing,词向量方法在自然语言处理中的应用。今年的ACL大会给词向量开辟了两场论坛。

对初学者而言,用词向量来计算词语的语义关系非常容易,NLP方向的深度学习演讲经常把国王 - 男人 + 女人 ≈ 王后的例子作为开篇。最近,Communications of the ACM上的一篇文章将词向量奉为是NLP取得重大突破的第一功臣。

本文是有关词向量系列文章的第一篇,我们希望全面地介绍一下词向量的方法。在此系列文章中,我们会提到多篇词向量模型相关的文献,重点突出几个模型、实际应用例子以及词向量方法的若干特点,后续的文章中还会介绍多语种的词向量模型和效果评估工作。

本篇文章将基于当前使用的词向量方法展开介绍。虽然其中许多的模型已经被人们充分地讨论过了,但我们希望在过去和现有的研究中讨论并调研它们的价值,能给我们提供新的见解。

术语约定:在本文中,我们将用词向量(word embeddings)来指代词语在低维向量空间的稠密表征。在英语中,它还可以被称作word vectors或是distributed representations。我们主要关注的是神经网络词向量,即通过神经网络模型学习得到的词向量。

词向量的来历

自上世纪90年代开始,特征空间模型就应用于分布式语言理解中。在当时,许多模型用连续型的表征来表示词语,包括潜在语义分析(Latent Semantic Analysis)和潜在狄利克雷分配(Latent Dirichlet Allocation)模型。这篇文章详细介绍了词向量方法在那个阶段的发展。

Bengio等人在2003年首先提出了词向量的概念,当时是将其与语言模型的参数一并训练得到的。Collobert和Weston则第一次正式使用预训练的词向量。Collobert和Weston的那篇里程碑式的论文A unified architecture for natural language processing不仅将词向量方法作为处理下游任务的有效工具,而且还引入了神经网络模型结构,为目前许多方法的改进和提升奠定了基础。词向量的真正推广要归因于Mikolov等人于2013年开发的Word2vec,word2vec可以训练和使用词向量。在2014年,Pennington等人发布了GloVe,这是一套预训练得到的完整词向量集,它标志着词向量方法已经成为了NLP领域的主流。

词向量方法是无监督式学习的少数几个成功应用之一。它的优势在于不需要人工标注语料,直接使用未标注的文本训练集作为输入。输出的词向量可以用于下游的业务处理。

词向量模型

一般来说,神经网络将词表中的词语作为输入,输出一个低维度的向量表示这个词语,然后用反向传播的方法不断优化参数。输出的低维向量是神经网络第一层的参数,这一层通常也称作Embedding Layer

生成词向量的神经网络模型分为两种,一种是像word2vec&#

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值