训练过程中新增了paragraphid,即训练语料中每个句子都有一个唯一的id。paragraphid和普通的word一样,也是先映射成一个向量,即paragraphvector。paragraphvector与wordvector的维数虽一样,但是来自于两个不同的向量空间。在之后的计算里,paragraphvector和wordvector累加或者连接起来,作为输出层softmax的输入。在一个句子或者文档的训练过程中,paragraphid保持不变,共享着同一个paragraphvector,相当于每次在预测单词的概率时,都利用了整个句子的语义。
在预测阶段,给待预测的句子新分配一个paragraphid,词向量和输出层softmax的参数保持训练阶段得到的参数不变,重新利用梯度下降训练待预测的句子。待收敛后,即得到待预测句子的paragraphvector