word2vec进一步说明、glove

word2vec进一步说明

word2vec本质上为神经网络与哈弗曼树的结合体。

哈夫曼树
哈弗曼树是指给定N个权值作为N个叶子结点,构造一棵二叉树,若该树的带权路径长度达到最小,称这样的二叉树为最优二叉树,也称为哈夫曼树(Huffman Tree)。哈夫曼树是带权路径长度最短的树,权值较大的结点离根较近。(来自百度百科)

下面的示意图表现了哈弗曼树的构建过程,实际上这个过程也是word2vec作者在代码中构建哈弗曼树的过程,作者在构建哈弗曼树的时候并没有使用指针之类的方式进行构建,而是采用了一种稍微有点抽象的方式,应该说是原作者存储的是数组的下标的位置,构建的一个比较"抽象"的哈弗曼树。
  
下图中红色是叶子节点,也即是词汇,数字代表该单词出现的频率.
例如 50,23,21,20,10词频的词语可构建如下哈夫曼树,子节点之和为父节点,数值较大的节点放在左边,为负类(也有标记为正类)。
在这里插入图片描述
为什么这里会使用到哈弗曼树呢?因为这里需要使用层次softmax。构建好一个哈弗曼树之后,我们可以有效的减少计算量,词频比较高的词都比较靠近树的根部,因为对词频比较高的词的更新会比较频繁,所以每次进行计算的时候,可以有效的减少对树的遍历深度,也就减少了计算量。

1.COBW 层次softmax
在这里插入图片描述
参数符号表示如下。
在这里插入图片描述
每一个节点是一个二分类,可以用sigmoid进行分类
在这里插入图片描述
前向传导
在这里插入图片描述
反向传播
在这里插入图片描述
skip-gram的也类似,就是隐藏层没有了。
再引入负采样的方法,损失函数变成最大化正样本概率,同时最小化负样本概率即可。

glove

GloVe的全称叫Global Vectors for Word Representation,它是一个基于全局词频统计(count-based & overall statistics)的词表征(word representation)工具,它可以把一个单词表达成一个由实数组成的向量,这些向量捕捉到了单词之间一些语义特性,比如相似性(similarity)、类比性(analogy)等。我们通过对向量的运算,比如欧几里得距离或者cosine相似度,可以计算出两个单词之间的语义相似性。glove流程图如下。
glove基本框架
共现矩阵
在这里插入图片描述
这个矩阵是窗口为1的共现矩阵,阵内数字表示在相邻(1单位)区域,两个单词共同出现的次数。
所以glove是基于全局语料库统计的数据,我们希望把每一个单词训练成词向量,并能完美预测共现矩阵。故虽然glove是非监督的方法,但实际X共现矩阵让glove显得是监督的。

同时教授提出了重要的一点:单词矢量学习的合适起点应该是共现概率的比值,而不是概率本身

下表展示了如何从共现概率中直接提取意义的某些方面。例如,考虑两个单词i和j,我们可以取i =冰,j =蒸汽。这些词之间的关系可以通过研究它们与各种探测词k的共出现概率的比值来检验。对于与冰有关而与蒸汽无关的词k,比如k = solid,我们预计 两个条件概率的比值会很大。同样,对于与蒸汽相关而与冰无关的单词k,比如k =gas,这个比例应该很小。对于像水或时尚这样既与冰又与蒸汽有关,或者两者都不相关的单词k,这个比例应该接近于1。
在这里插入图片描述
在这里插入图片描述
首先看看损失函数是这个样子
在这里插入图片描述
式子中bi为log(xi),bj为另一扰动项。
f为权重函数,词频越大权重越高,但又很好地约束了极端值。
具体手推过程如下图。
在这里插入图片描述
总结:

LSA(Latent Semantic Analysis)是一种比较早的基于计数的词向量表征工具,它也是基于共现矩阵的,只不过采用了基于奇异值分解(SVD)的矩阵分解技术对大矩阵进行降维。SVD的复杂度是很高的,所以它的计算代价比较大。还有一点是它对所有单词的统计权重都是一致的。而这些缺点在GloVe中被一一克服了。

word2vec最大的缺点则是没有充分利用所有的语料,所以GloVe其实是把两者的优点结合了起来。理论上,GloVe的性能是优超LSA和word2vec的,但网上也有人说GloVe和word2vec实际表现其实差不多。

code glove
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值