word2vec模型评估_Paper | Word2Vec：词嵌入的一枚银弹

最新推荐文章于 2023-03-17 21:02:49 发布

weixin_39721807

最新推荐文章于 2023-03-17 21:02:49 发布

阅读量288

点赞数

文章标签： word2vec模型评估

本文链接：https://blog.csdn.net/weixin_39721807/article/details/111624705

版权

一

Introduction

我们先尝试着回答几个问题，以检测下自己对 Word2Vec 的理解。

Word2Vec 两个算法模型的原理是什么，网络结构怎么画？
网络输入输出是什么？隐藏层的激活函数是什么？输出层的激活函数是什么？
目标函数/损失函数是什么？
Word2Vec 如何获取词向量？
Word2Vec 的两个模型哪个效果好哪个速度快？为什么？
推导一下参数如何更新？
Word2Vec 加速训练的方法有哪些？
介绍下 Hierarchical Softmax 的计算过程，怎么把 Huffman 放到网络中的？参数是如何更新的？对词频低的和词频高的单词有什么影响？为什么？
介绍下 Negative Sampling，对词频低的和词频高的单词有什么影响？为什么？
Word2Vec 有哪些参数，有没有什么调参的建议？
Word2Vec 有哪些局限性？

注：由于本文公式比较多不适合 Wrod2Vec 入门，入门学习可以参考 McCormick 大佬的几篇系列教程：《Word2Vec Tutorial》。

二

Word Embedding

在聊 Word2Vec 之前，我们先来了解一下词向量，我们都知道字符变量在送到神经网络训练之前需要将其编码成数值变量，常见的编码方式有两种：

One-Hot 编码：以字符变量的种类为向量长度，向量中仅一个元素为 1 其它均为 0，这种编码方式的缺点是数据稀疏，不适合作为神经网络的输入(参数更新慢，收敛速度慢，计算量大)，且无法捕捉到词与词之间的关系(相互正交)；
分布编码：将字符变量映射到固定长度的向量中，向量空间中的点可以表示某个字符变量，且字符间的距离有意义。理想状况下，两个对象越相似其在空间中的距离就越近。

举个简单的例子，使用 One-Hot 编码时男=[1, 0]，女=[0,1]，而使用分布编码时，男=1, 女=0。我们可以看到分布编码占用的空间比 One-Hot 要小。今天要聊的 Word2Vec 是一种典型的分布编码方式，通过训练浅层神经网络获得词向量。

Word2Vec 有两种网络结构：CBOW 和 Skip-Gram，其结构如下图所示：

CBOW 是用上下文预测当前单词，Skip-gram 是用当前词预测上下文，两种网络都可以概括为如下网络：

其中，网络的输入是 One-Hot 向量

，隐藏层 无激活函数，输出层 有 Softmax 函数，输出的是概率分布，预测目标也为 One-Hot 向量

。层与层之间采用全连接方式，并用反向传播训练网络。输入层到隐藏层的映射矩阵为

，隐藏层到输出层的映射矩阵为

，也就是说对于任意的单词

我们都可以有两种表示向量：

其中，

为单词 k 的 One-Hot 编码，大小为 (1, N)。这个操作的本质是把 W 的第 k 行复制给 v。举个例子：

为方便起见，我们将

成为输入向量，将

成为输出向量。输出层的计算方式采用 Softmax：

关注