word2vec向量嵌入过程的理解

最新推荐文章于 2024-07-27 10:32:01 发布

天翊178344915

最新推荐文章于 2024-07-27 10:32:01 发布

阅读量547

点赞数

文章标签：神经网络

本文链接：https://blog.csdn.net/qq_38781549/article/details/119254243

版权

对于一句话，我喜欢吃XX，因为非常可口。判断一个词(苹果)是否应该初现在XX的位置，以前是根据神经网络来进行一个分类任务。但是分类的话，都是中文，计算机无法理解，然后研究人员将其转换到实值空间内。即对每一个词都进行独热编码成向量的形式，编码向量的维度及词汇表大小。然后根据概率模型，使得p(苹果|我，喜欢，吃)的概率最大。这种方式输入和输出标签都是独热编码的形式，只是要拟合神经网络的参数。采用独热编码的形式使得每个词对应的向量维度非常大，非常稀疏，易发生维度爆炸，且向量之间没有任何语义信息，每个向量之间都是垂直的，无法通过其他形式（例如求两个词之间的余弦）得到语义。2013年提出的word2Vec采用滑动窗口的形式，基本出发点是上下文相似的两个词，它们的词向量也应该相似，比如香蕉和梨在句子中可能经常出现在相同的上下文中，因此这两个词的表示向量应该就比较相似。通过从输入层到隐藏层或隐藏层到输出层的权重矩阵去向量化表示词的输入，使得单词向量维数减少，且富有语义信息。刚开始每个单词都是独热编码，之后经过矩阵链接到隐藏层，之后到输出层。但由于独热编码的形式，一个句子的反向传播从输入到隐藏层的矩阵链接只有独热编码为1的对应的那一行的向量可以更新到，使得向量之间具有了语义信息。因为p(苹果|我，喜欢，吃)，p(香蕉|我，喜欢，吃)都是正确的，而且更新过程也相似，所以香蕉和苹果向量表示非常近似。

图嵌入算法受word2vec的启发。即对于图中的一个节点，应该受到上下邻居的影响，如何得到上下邻居呢，采用随机游走的方式进行固定步长的采样，之后套用word2vec。DeepWalk就是先随机游走之后加word2vec+负采样。
node2vec加入了边的权重来控制游走的顺序是宽度优先搜索还是深度优先搜索