深度学习之词向量Word Embedding总结

最新推荐文章于 2025-05-21 14:07:02 发布

原创

最新推荐文章于 2025-05-21 14:07:02 发布 · 2.9k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #BERT #NLP #word embedding #文本预处理

本文介绍了词向量Word Embedding的基本概念，包括One-Hot表示的不足，Distributed表示的优势，以及Word2vec的原理。还探讨了BERT模型及其在NLP任务中的应用，并提供了相关资源链接。

一、Word Embedding介绍

word embedding，又名词嵌入、词向量，在近几年的NLP领域变得越来越热，从概念上讲，它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。当它用作底层文本输入表示时，单词和短语嵌入已经被证明可以提高NLP任务的性能，例如语法分析和情感分析。

word embedding的意思是：给出一个文档，文档就是一个单词序列比如 “A B A C B F G”, 希望对文档中每个不同的单词都得到一个对应的向量(往往是低维向量)表示。
比如，对于这样的“A B A C B F G”的一个序列，也许我们最后能得到：A对应的向量为[0.1 0.6 -0.5]，B对应的向量为[-0.2 0.9 0.7] （此处的数值只用于示意）

之所以希望把每个单词变成一个向量，目的还是为了方便计算，比如“求单词A的同义词”，就可以通过“求与单词A在cos距离下最相似的向量”来做到。

word embedding不是一个新的topic，很早就已经有人做了，比如bengio的paper“Neural probabilistic language models”，这其实还不算最早，更早的时候，Hinton就已经提出了distributed representation的概念“Learning distributed representations of concepts”(只不过不是用在word embedding上面) ，AAAI2015的时候问过Hinton怎么看google的word2vec，他说自己20年前就已经搞过了，估计指的就是这篇paper。

现在，word embeddi

最低0.47元/天解锁文章