Doc2Vec模型
摘要
通过本文,你将了解到:
- Doc2Vec模型是如何产生的
- Doc2Vec模型细节
- Doc2Vec模型的特点
- Doc2Vec的使用及代码(gensim)
背景
Doc2Vec模型的产生要从词向量表示(论文word2vec模型)开始说起,该文章介绍了两种词的向量表示方法CBOW和Skip-gram.
本小结以CBOW为例回顾模型的一些细节:
CBOW模型的框架如下图所示:
词典中的每一个词用一个向量表示,对应矩阵 W 中的一个列向量,而具体对应哪一列则取决于该词在词典中的位置。
具体地,给定一个用于训练的词序列
1T∑t=kT−klog p(wt|