古董word2vec

word representation从离散空间开始,one-hot,bag-of-words(将各词的one-hot词向量加和表示句子),TF-IDF(解决了词频高不一定是词重要,“的” “了” “要”,这些词很常见,但不是重要,另外词的顺序没有考虑),N-gram(按句子的顺序,分别取相邻N=1个词,N=2个词。。。建立索引)在这里插入图片描述
离散表示的问题:1无法衡量词向量之间的关系,2词表维度随着语料库增长膨胀,3n-gram词序列随语料库膨胀更快,4数据稀疏问题

因为离散表示以上问题,就出现了词的分布式表示,将一个词的信息分布到固定维度的位置上去,变为稠密的向量可以计算词之间的余弦相似度和单词表示的维度。最初的神经网络语言模型的词向量是模型的副产品,而word2vec主要用来训练得到分布式词向量。

word2vec 输入是One-Hot Vector,Hidden Layer没有激活函数,也就是线性的单元。Output Layer维度跟Input Layer的维度一样,用的是Softmax回归。当模型训练好以后,我们并不会用这个训练好的模型处理新的任务,我们真正需要的是这个模型通过训练数据所学得的参数,例如隐层的权重矩阵。

CBOW(背景词预测中心词)
在这里插入图片描述
概率密度函数
在这里插入图片描述
最大化背景词(uo,中心词的窗口内的其他词)产生中心词(uc,中心词在句子中从左向右移动)的概率(通过softmax),得到最小化损失函数。由于分母中ui是在词典库当中,计算量很大。
在这里插入图片描述
Skip-Gram(中心词预测背景词),相比神经网络语言模型,这些模型没有激活函数的非线性变化
在这里插入图片描述
例如下面句子从the开始当中心词,当quick为中心词,quick预测the,quick预测brown,quick预测for,以此类推
在这里插入图片描述
概率密度函数如下,最大化中心词预测背景词的概率(最大似然函数),由最后一个式子看出,由于词典库,计算量会很大
在这里插入图片描述
由于训练时计算开销很大,有两种近似训练法减少计算量,分别是负采样和层次softmax,目的是减少softmax分母中的词库。

负采样提出添加噪声词,不选取词典库中的单词,换为随机采样的噪声词,上下文有两种情况背景词和中心词,背景词和噪声词两种情况,相当于二分类,出现背景词和中心词的概率和出现景词和噪声词的概率。
在这里插入图片描述
针对skip-gram模型的负采样,最大化联合概率背景词和中心词的概率和出现景词和噪声词的概率,wo为背景词,wc为中心词,wk为噪声词。
在这里插入图片描述
最小化损失函数,这样词典库就减少到噪声词的大小,对于噪声词的选取为随机采样,依据词频将一段【0,1】分为词库大小V份数,每份大小依据词频大小不同而不同,再将【0,1】分为M>>V,在M中随机选取K份,会得到不同的噪声单词,如下所示。
在这里插入图片描述在这里插入图片描述
针对cbow的负采样,同理
在这里插入图片描述
最小化损失函数
在这里插入图片描述
层次softmax,目标是出现概率高的符号使用较短的编码,出现概率低的符号则使用较长的编码;利用输出层的单词的词频作为叶子节点,非叶子节点二进制编码,构建Huffman树,当n(w,j+1) = left_child(n(w,j)时中括号左节点为1,否则为-1,最大化联合概率;u(w,j)为隐含层的输出,u(w)在skip-gram模型中是中心词的,在cbow模型中是背景词的求和平均。
在这里插入图片描述在这里插入图片描述
最小化损失函数
在这里插入图片描述
word2vec的词向量问题是没法解决同义词之间词向量的变化(一次多意),不同意思应该对应不同的词向量。

https://blog.csdn.net/itplus/article/details/37969817

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值