lda+word2vec 主题模型结合深度学习

最新推荐文章于 2024-10-31 10:57:54 发布

a602232180

最新推荐文章于 2024-10-31 10:57:54 发布

阅读量1.9w

点赞数 14

文章标签： lda+word2vec 文本分类

本文链接：https://blog.csdn.net/a602232180/article/details/78586690

版权

本文介绍了将LDA与Word2Vec结合的文档特征提取方法，通过主题词的归一化处理和word2vec空间映射，构建文档在word2vec空间的坐标，并使用KNN分类器进行文本分类。实验尚未深度调参，但预期在更大规模语料上效果会更佳，同时提到doc2vec模型可以进一步提升效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近硕士毕业小论文想写LDA结合深度学习的，论文看来看去，看的头大，也没什么好的创新点，杂七杂八小的创新带你想了一大堆，要么自己给否了，要么后来在看论文的时候发现写过了（那么LOW的点也能写），想写个差不多的’有价值意义的创新点，结果想来想去想着头大，就继续看论文。

言归正传，看了大几十篇外文文献了（外文的闻起来就厉害，实际上好的也没几个），结合点就一两个有价值的，推荐几篇有创新点的论文《A Hybrid Document Feature Extraction Method Using Latent Dirichlet Allocation andWord2Vec》;《 Improving topic models with latent featureword representations》；《Topic2Vec:learning distributed representations of topics》，别的大多在应用层面，创新的遇见的比较少，当然要是有好的论文求推荐（脑海里一万个感谢）。

这里实现了《AHybrid Document Feature Extraction Method Using Latent Dirichlet Allocation andWord2Vec》里面的方法，这里简要说下他的思路：

1、选取主题T的前N个词作为主题词

2、对主题词做归一化处理，即，计算每个词w占主题的权重

3、将主题映射到word2vec空间上，即：w在ord2vec空间的坐标*w占主题T的权重

4、计算文档在word2vec空间的坐标：每个词在word2vec空间下的坐标相加，再除以总词数

5、计算每篇文档与各个主题的距离doc_t

6、这里我用KNN分类器，做分类模型

7、计算测试文档与各个主题的距离，计算过程如4、5，将得到的矩阵带入模型中预测

上代码了:

from gensim import models,corpora,similarities
from sklearn.cross_validation import train_test_split
from gensim.models.doc2vec import TaggedDocument,Doc2Vec
from gensim.models import LdaModel
import numpy as np
import os
import random
from sklearn.neighbors import KNeighborsClassifier 
from gensim.models import word2vec
import sklearn.metrics as metrics 
doc=[] 
label_c=[]
ii=0
for x in os.listdir("D:\Documents\data\zhaiyao\\1\\"):
    print x
    for line in open("D:\Documents\data\zhaiyao\\1\\"+x,"r").readlines():
        doc.append(line.strip().split("  "))
        label_c.append(ii)
    ii&