word2vec的延伸:DOC2VEC

虽然WORD2VEC表示的词向量不仅考虑了词之间的语义信息,还压缩了维度。但是,有时候当我们需要得到sentence/Document的向量时,虽然可以直接将sentence/Document中所有词的向量取均值作为sentence/Document的向量表示,但是这样会忽略了单词之间的排列顺序对句子或文本信息的影响。

基于此,才延伸出在word2vec上的改进doc2vec。

  • Doc2vec

与word2vec一样,DOC2VEC也有两种模型,分别为Distributed Memory(DM) 和Distributed Bag of Words(DBOW)。

DM模型在给定上下文和文档向量的情况下预测单词的概率,DBOW模型在给定文档向量的情况下预测文档中一组单词的概率。

其中,在一个文档的训练过程中,文档向量共享(意味着在预测单词的概率时,都利用了这个文档的语义)

DOC2vec的DM模型和word2vec的CBOW模型很像,DOC2VEC的DBOW模型跟word2vec的skip-gram模型很像。

DM

DM模型在训练时,首先将每个文档ID和语料库中所有词初始化一个K维的向量,然后将文档向量和上下文词的向量输入模型,隐层将这些向量累加(均值或者拼接,累加常用,且一般不选拼接,因为计算量大)得到中间向量,作为输出层softmax的输入。在一个文档的训练过程中,文档ID保持不变,共享这同一个文档的向量,相当于在预测单词的概率时,都利用了这个句子的语义。

DBOW

DBOW模型的输入是文档的向量,预测的是该文档随机抽样的词。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值