漫谈词向量

最新推荐文章于 2024-06-28 17:59:39 发布

csdn_csdn__AI

最新推荐文章于 2024-06-28 17:59:39 发布

阅读量4.4k

点赞数 1

文章标签：词向量非监督式学习 Word2Vec CBOW 自然语言处理

本文链接：https://blog.csdn.net/heyc861221/article/details/80126134

版权

本文介绍了词向量的发展历程，从词向量的起源到Word2Vec模型，包括CBOW和Skip-gram结构。词向量在自然语言处理中的广泛应用得益于其无监督式学习的特性，能够在大规模文本数据上训练得到。这些模型不仅简化了计算，而且提高了语义表示的质量，成为现代NLP的基石。

摘要由CSDN通过智能技术生成

原文： On word embeddings
作者： Sebastian Ruder
译者： KK4SBB 审校：王艺
责编：何永灿，关注人工智能，投稿请联系 heyc@csdn.net 或微信号 289416419

词向量的来历
词向量模型
- 语言建模概述
- 经典的神经语言模型
- C&W模型
- Word2Vec
- CBOW
- Skip-gram

非监督式学习得到的词向量（word embedding）已经成功地应用于许多NLP的任务中，它常被誉为是一项利器。实际上，在许多NLP任务中，词向量已经完全地取代了传统的分布特征，比如布朗聚类和LSA特征。

去年的ACL和EMNLP大会基本被词向量方法所霸占，甚至有人戏称EMNLP更合理的解释应该是Embedding Methods in Natural Language Processing，词向量方法在自然语言处理中的应用。今年的ACL大会给词向量开辟了两场论坛。

对初学者而言，用词向量来计算词语的语义关系非常容易，NLP方向的深度学习演讲经常把国王 - 男人 + 女人 ≈ 王后的例子作为开篇。最近，Communications of the ACM上的一篇文章将词向量奉为是NLP取得重大突破的第一功臣。

本文是有关词向量系列文章的第一篇，我们希望全面地介绍一下词向量的方法。在此系列文章中，我们会提到多篇词向量模型相关的文献，重点突出几个模型、实际应用例子以及词向量方法的若干特点，后续的文章中还会介绍多语种的词向量模型和效果评估工作。

本篇文章将基于当前使用的词向量方法展开介绍。虽然其中许多的模型已经被人们充分地讨论过了，但我们希望在过去和现有的研究中讨论并调研它们的价值，能给我们提供新的见解。

术语约定：在本文中，我们将用词向量（word embeddings）来指代词语在低维向量空间的稠密表征。在英语中，它还可以被称作word vectors或是distributed representations。我们主要关注的是神经网络词向量，即通过神经网络模型学习得到的词向量。

词向量的来历

自上世纪90年代开始，特征空间模型就应用于分布式语言理解中。在当时，许多模型用连续型的表征来表示词语，包括潜在语义分析（Latent Semantic Analysis）和潜在狄利克雷分配（Latent Dirichlet Allocation）模型。这篇文章详细介绍了词向量方法在那个阶段的发展。

Bengio等人在2003年首先提出了词向量的概念，当时是将其与语言模型的参数一并训练得到的。Collobert和Weston则第一次正式使用预训练的词向量。Collobert和Weston的那篇里程碑式的论文A unified architecture for natural language processing不仅将词向量方法作为处理下游任务的有效工具，而且还引入了神经网络模型结构，为目前许多方法的改进和提升奠定了基础。词向量的真正推广要归因于Mikolov等人于2013年开发的Word2vec，word2vec可以训练和使用词向量。在2014年，Pennington等人发布了GloVe，这是一套预训练得到的完整词向量集，它标志着词向量方法已经成为了NLP领域的主流。

词向量方法是无监督式学习的少数几个成功应用之一。它的优势在于不需要人工标注语料，直接使用未标注的文本训练集作为输入。输出的词向量可以用于下游的业务处理。