lda+word2vec 主题模型结合深度学习

         最近硕士毕业小论文想写LDA结合深度学习的,论文看来看去,看的头大,也没什么好的创新点,杂七杂八小的创新带你想了一大堆,要么自己给否了,要么后来在看论文的时候发现写过了(那么LOW的点也能写),想写个差不多的’有价值意义的创新点,结果想来想去想着头大,就继续看论文。

         言归正传,看了大几十篇外文文献了(外文的闻起来就厉害,实际上好的也没几个),结合点就一两个有价值的,推荐几篇有创新点的论文《A Hybrid Document Feature Extraction Method Using Latent Dirichlet Allocation andWord2Vec》;《 Improving topic models with latent featureword representations》;《Topic2Vec:learning distributed representations of topics》,别的大多在应用层面,创新的遇见的比较少,当然要是有好的论文求推荐(脑海里一万个感谢)。

        这里实现了《AHybrid Document Feature Extraction Method Using Latent Dirichlet Allocation andWord2Vec》里面的方法,这里简要说下他的思路:

1、  选取主题T的前N个词作为主题词

2、对主题词做归一化处理,即,计算每个词w占主题的权重

3、将主题映射到word2vec空间上,即:w在ord2vec空间的坐标*w占主题T的权重

4、计算文档在word2vec空间的坐标:每个词在word2vec空间下的坐标相加,再除以总词数

5、计算每篇文档与各个主题的距离doc_t

6、这里我用KNN分类器,做分类模型

7、计算测试文档与各个主题的距离,计算过程如4、5,将得到的矩阵带入模型中预测

       上代码了:

 

from gensim import models,corpora,similarities
from sklearn.cross_validation import train_test_split
from gensim.models.doc2vec import TaggedDocument,Doc2Vec
from gensim.models import LdaModel
import numpy as np
import os
import random
from sklearn.neighbors import KNeighborsClassifier 
from gensim.models import word2vec
import sklearn.metrics as metrics 
doc=[] 
label_c=[]
ii=0
for x in os.listdir("D:\Documents\data\zhaiyao\\1\\"):
    print x
    for line in open("D:\Documents\data\zhaiyao\\1\\"+x,"r").readlines():
        doc.append(line.strip().split("  "))
        label_c.append(ii)
    ii&
  • 14
    点赞
  • 165
    收藏
    觉得还不错? 一键收藏
  • 30
    评论
评论 30
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值