Word2Vec理解

最新推荐文章于 2022-12-03 20:57:17 发布

Torero_lch

最新推荐文章于 2022-12-03 20:57:17 发布

阅读量438

点赞数

分类专栏：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Torero_lch/article/details/82350713

版权

自然语言处理专栏收录该内容

32 篇文章 0 订阅

订阅专栏

记录词语的一种分布式表示方法word2vec，论文Distributed Representations of Sentences and Documents，其中有两种常用的无监督模型CBOW和Skip-gram，大同小异，但思想其实是有监督的。关键在于似然函数的构造和训练的加速。

一、CBOW

已知当前词的上下文来预测当前词，如图

Huffman树：带权路径长度最短的树，又称最优二叉树；
为什么叫hierarchi softmax：树的最下层的概率加起来等于1；
为什么用hierarchi softmax：如图中，若直接使用softmax，就要对词表中的每一个词计算，复杂度O(V)，使用Huffman树后复杂度降为O(log2V),2为底，速度大大加快。（fasttext论文中也说是和）
在推导的时候想到了一个问题，因为都把word2vec结构也称为神经网络，就在想为什么这里没有用反向传播。看了看应该是此处的目标函数可以直接对要更新的参数求导，但多层的神经网络里想直接求偏导太困难，所以需要用到链式法则和全导数等方法。
为什么这里的概率用sigmoid来求？这里的sigmoid对应到传统的softmax中就是起到激活函数的作用，没有找到相关的解释，有可能是sigmoid的值域为(0,1)，符合概率要求，也有可能是形式好便于求导吧。

二、Skip-gram

与CBOW很相似，推导基本一样，梯度更新如上图中；可以是一个词语更新一次向量，也可以是所有词语的梯度加在一起来更新向量。

三、Paragraph Vector

第一种叫PV-DM,第二种叫PV-DBOW。（和word2vec的叫法反过来了，感觉怪怪的）

整个PV过程和Word2Vec基本一样，增加了一个文档向量，在该文档内的训练过程中是共享的，不断更新。在PV-DBOW中，对应产生文档中的词语，跟Skip-gram原理一样。

四、训练向量的评价标准

原先好像是以词向量对于实际任务的收益来作为评价标准，比如词汇类比任务（A-B=C-D）和常见的NLP应用任务，但是脱离实际任务，又很难讲不同的词向量谁更好，所以现在很多工作开始学习任务相关的词向量。参考

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。