word embedding

最新推荐文章于 2024-08-15 09:36:21 发布

sinat_32279627

最新推荐文章于 2024-08-15 09:36:21 发布

阅读量414

点赞数

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/sinat_32279627/article/details/79443463

版权

word embedding将单词转化为低维向量，便于计算，如找同义词。NNLM是最早提出词向量的模型，word2vec是重要工具。研究涵盖词共现矩阵、降维方法，反映了语言中的偏见。

摘要由CSDN通过智能技术生成

word embedding的意思是：给出一个文档，文档就是一个单词序列比如 “A B A C B F G”, 希望对文档中每个不同的单词都得到一个对应的向量(往往是低维向量)表示。比如，对于这样的“A B A C B F G”的一个序列，也许我们最后能得到：A对应的向量为[0.1 0.6 -0.5]，B对应的向量为[-0.2 0.9 0.7] （此处的数值只用于示意）之所以希望把每个单词变成一个向量，目的还是为了方便计算，比如“求单词A的同义词”，就可以通过“求与单词A在cos距离下最相似的向量”来做到。
常见的word embedding方法就是先从文本中为每个单词构造一组features，然后对这组feature做distributed representations，哈哈，相比于传统的distributed representations，区别就是多了一步(先从文档中为每个单词构造一组feature)。

神经网络词向量模型与其它分布表示方法一样，均基于分布假说，核心依然是上下文的表示以及上下文与目标词之间的关系的建模。

前面提到过，为了选择一种模型刻画某个词（下文称“目标词”）与其上下文之间的关系，我们需要在词向量中捕捉到一个词的上下文信息。同时，上面我们恰巧提到了统计语言模型正好具有捕捉上下文信息的能力。那么构建上下文与目标词之间的关系，最自然的一种思路就是使用语言模型。从历史上看，早期的词向量只是神经网络语言模型的副产品。

2001年， Bengio 等人正式提出神经网络语言模型（ Neural Network Language Model ，NNLM），该模型在学习语言模型的同时，也得到了词向量。所以请注意一点：词向量可以