最近硕士毕业小论文想写LDA结合深度学习的,论文看来看去,看的头大,也没什么好的创新点,杂七杂八小的创新带你想了一大堆,要么自己给否了,要么后来在看论文的时候发现写过了(那么LOW的点也能写),想写个差不多的’有价值意义的创新点,结果想来想去想着头大,就继续看论文。
言归正传,看了大几十篇外文文献了(外文的闻起来就厉害,实际上好的也没几个),结合点就一两个有价值的,推荐几篇有创新点的论文《A Hybrid Document Feature Extraction Method Using Latent Dirichlet Allocation andWord2Vec》;《 Improving topic models with latent featureword representations》;《Topic2Vec:learning distributed representations of topics》,别的大多在应用层面,创新的遇见的比较少,当然要是有好的论文求推荐(脑海里一万个感谢)。
这里实现了《AHybrid Document Feature Extraction Method Using Latent Dirichlet Allocation andWord2Vec》里面的方法,这里简要说下他的思路:
1、 选取主题T的前N个词作为主题词
2、对主题词做归一化处理,即,计算每个词w占主题的权重
3、将主题映射到word2vec空间上,即:w在ord2vec空间的坐标*w占主题T的权重
4、计算文档在word2vec空间的坐标:每个词在word2vec空间下的坐标相加,再除以总词数
5、计算每篇文档与各个主题的距离doc_t
6、这里我用KNN分类器,做分类模型
7、计算测试文档与各个主题的距离,计算过程如4、5,将得到的矩阵带入模型中预测
上代码了:
from gensim import models,corpora,similarities
from sklearn.cross_validation import train_test_split
from gensim.models.doc2vec import TaggedDocument,Doc2Vec
from gensim.models import LdaModel
import numpy as np
import os
import random
from sklearn.neighbors import KNeighborsClassifier
from gensim.models import word2vec
import sklearn.metrics as metrics
doc=[]
label_c=[]
ii=0
for x in os.listdir("D:\Documents\data\zhaiyao\\1\\"):
print x
for line in open("D:\Documents\data\zhaiyao\\1\\"+x,"r").readlines():
doc.append(line.strip().split(" "))
label_c.append(ii)
ii&