word2vec模型评估_Paper | Word2Vec:词嵌入的一枚银弹

Introduction

Word2Vec 是 Google 在 2013 年开源的一个词向量(Word Embedding)计算工具,其用来解决单词的分布编码问题,因其简单高效引起了工业界和学术界极大的关注。

我们先尝试着回答几个问题,以检测下自己对 Word2Vec 的理解。
  1. Word2Vec 两个算法模型的原理是什么,网络结构怎么画?
  2. 网络输入输出是什么?隐藏层的激活函数是什么?输出层的激活函数是什么?
  3. 目标函数/损失函数是什么?
  4. Word2Vec 如何获取词向量?
  5. Word2Vec 的两个模型哪个效果好哪个速度快?为什么?
  6. 推导一下参数如何更新?
  7. Word2Vec 加速训练的方法有哪些?
  8. 介绍下 Hierarchical Softmax 的计算过程,怎么把 Huffman 放到网络中的?参数是如何更新的?对词频低的和词频高的单词有什么影响?为什么?
  9. 介绍下 Negative Sampling,对词频低的和词频高的单词有什么影响?为什么?
  10. Word2Vec 有哪些参数,有没有什么调参的建议?
  11. Word2Vec 有哪些局限性?
注:由于本文公式比较多不适合 Wrod2Vec 入门,入门学习可以参考 McCormick 大佬的几篇系列教程:《Word2Vec Tutorial》。

Word Embedding

在聊 Word2Vec 之前,我们先来了解一下词向量,我们都知道字符变量在送到神经网络训练之前需要将其编码成数值变量,常见的编码方式有两种:
  • One-Hot 编码:以字符变量的种类为向量长度,向量中仅一个元素为 1 其它均为 0,这种编码方式的缺点是数据稀疏,不适合作为神经网络的输入(参数更新慢,收敛速度慢,计算量大),且无法捕捉到词与词之间的关系(相互正交);
  • 分布编码:将字符变量映射到固定长度的向量中,向量空间中的点可以表示某个字符变量,且字符间的距离有意义。理想状况下,两个对象越相似其在空间中的距离就越近。
举个简单的例子,使用 One-Hot 编码时 男=[1, 0],女=[0,1],而使用分布编码时,男=1, 女=0。我们可以看到分布编码占用的空间比 One-Hot 要小。 今天要聊的 Word2Vec 是一种典型的分布编码方式,通过训练浅层神经网络获得词向量。

2.1 Structure

Word2Vec 有两种网络结构:CBOW 和 Skip-Gram,其结构如下图所示:
1d2f1e351a0d00683a0386f2571eedd5.png
CBOW 是用上下文预测当前单词,Skip-gram 是用当前词预测上下文,两种网络都可以概括为如下网络:
3bc2eae67f5ddd6d6f4f84781a3ab9ff.png
其中,网络的输入是 One-Hot 向量  9a444e68-c52c-eb11-8da9-e4434bdf6706.svg  ,隐藏层 无激活函数,输出层 有 Softmax 函数,输出的是概率分布,预测目标也为 One-Hot 向量  9d444e68-c52c-eb11-8da9-e4434bdf6706.svg  。层与层之间采用全连接方式,并用反向传播训练网络。 输入层到隐藏层的映射矩阵为  a0444e68-c52c-eb11-8da9-e4434bdf6706.svg  ,隐藏层到输出层的映射矩阵为  a4444e68-c52c-eb11-8da9-e4434bdf6706.svg  ,也就是说对于任意的单词  a6444e68-c52c-eb11-8da9-e4434bdf6706.svg  我们都可以有两种表示向量: a9444e68-c52c-eb11-8da9-e4434bdf6706.svg 其中,  ac444e68-c52c-eb11-8da9-e4434bdf6706.svg  为单词 k 的 One-Hot 编码,大小为 (1, N)。这个操作的本质是把 W 的第 k 行复制给 v。举个例子:
c34e5d90ab0c95bb2f79d1bed93ac4e1.png
为方便起见,我们将  b4444e68-c52c-eb11-8da9-e4434bdf6706.svg  成为输入向量, 将  b6444e68-c52c-eb11-8da9-e4434bdf6706.svg  成为输出向量。 输出层 的计算方式采用 Softmax:
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值