#彻底理解# NLP中的word2vec

最新推荐文章于 2024-09-08 07:30:00 发布

energy_百分百

最新推荐文章于 2024-09-08 07:30:00 发布

阅读量528

点赞数 1

分类专栏： NLP 机器学习文章标签： nlp word2vec nnlm bert 词向量

本文链接：https://blog.csdn.net/lch551218/article/details/114538219

版权

机器学习同时被 2 个专栏收录

72 篇文章

订阅专栏

NLP

23 篇文章

订阅专栏

首先简单概括一下 word2vec 的思想：
word2vec的目的是用指定维度的向量来表示词库中的每一个词，这些向量更利于后期进行各种NLP任务；每个词语对应的词向量本质上是语言模型中的一些权重参数，因此我们需要通过训练网络的方式得到这些权重的最优值，换句话说，我们通过预测未知词的方式训练网络，目的并不是真的要去使用模型预测未知词，而是提取网络的网络的权重参数进而得到词向量，然后拿这些词向量作为词语的另一种表示形式去进行别的模型里完成NLP任务

word2vec的目的是通过训练语言模型得到词向量，而早在 2003 年大牛 Bengio 就已经提出了神经网络语言模型（Neural Network Language Model, NNLM）该模型在学习语言模型的同时，也得到了词向量；因此我们先要了解一下NNLM模型

1. Neural Network Language Model(NNLM)

语言模型是一个多分类问题，给定前 n-1 个单词，预测第 n 个单词是什么。在 NNLM 中词向量可以认为是神经网络语言模型训练的副产物。

NNLM的结构如下：
在这里插入图片描述
模型的内部运算流程如下：

输入每个词的one-hot 编码
对每个输入点乘权重矩阵 C，得到每个词对应的词向量
将所有词的词向量拼接成一个长向量
将长向量输入隐藏层
隐藏层将输入点乘隐藏层的权重矩阵并加偏置后通过tanh函数输出到输出层
输出层点成输出层权重矩阵w并加偏置后通过softmax函数输出预测每个词的概率（输出层节点数=词库容量）

上图中的虚线表示从词向量到输出层的类似残差的结构，这里先不做赘述

这里最模型的输入和词向量的计算着重说明一下：

模型的输入

模型的输入是词库中词的one-hot编码
对词进行 one-hot 编码的过程如下：
用和词库容量大小（v）的维度来表示一个词语，词库中的第N个词语的第N维置为1，其余位置置为0

词向量的计算

输入词语的one-hot编码（1行v列）点乘矩阵C（v行m列）会得到对应的词向量，得到的是一个1行m列的向量（m的维度是人为指定的）；但由于one-hot向量特殊性，两者点乘等价于提取C矩阵中词语序号对应的行，因此我们可以理解为，C矩阵中按行存储着词库中每个词的词向量；这个C矩阵本是通过学习得到的网络参数一般情况下不会实际价值，这就是为什么说词向量矩阵是NNLM的副产物。