TFIDF与scikitlearin的LDA代码，进行主体聚类，为每个句子打标签

最新推荐文章于 2022-12-30 15:22:20 发布

作小寒

最新推荐文章于 2022-12-30 15:22:20 发布

阅读量525

点赞数

分类专栏：数据采集与数据挖掘

本文链接：https://blog.csdn.net/qq_34069180/article/details/109850009

版权

数据采集与数据挖掘专栏收录该内容

71 篇文章 6 订阅

订阅专栏

# -*- coding: utf-8 -*-

import jieba
jieba.suggest_freq('沙瑞金', True)
jieba.suggest_freq('易学习', True)
jieba.suggest_freq('王大路', True)
jieba.suggest_freq('京州', True)
jieba.suggest_freq('桓温', True)
#
cors=[]
files=['1.txt','2.txt','3.txt']
for i in files:
    with open(i,'r',encoding='utf-8') as f:
        tmp=f.read()
    with open("trans"+i,'w',encoding='utf-8') as f:
        document_cut = jieba.cut(tmp)
    #print  ' '.join(jieba_cut)
        result = ' '.join(document_cut)
        cors.append(result)
        f.write(result)

from sklearn.feature_extraction.text import TfidfVectorizer
corpus = [cors[0],cors[1]]
vector = TfidfVectorizer()
tfidf = vector.fit_transform(corpus)
print (tfidf)



wordlist = vector.get_feature_names()#获取词袋模型中的所有词
# tf-idf矩阵 元素a[i][j]表示j词在i类文本中的tf-idf权重
weightlist = tfidf.toarray()
#打印每类文本的tf-idf词语权重，第一个for遍历所有文本，第二个for便利某一类文本下的词语权重
for i in range(len(weightlist)):
    print ("-------第",i,"段文本的词语tf-idf权重------" )
    for j in range(len(wordlist)):
        print (wordlist[j],weightlist[i][j])



from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation
corpus = [cors[0],cors[1],cors[2]]
cntVector = CountVectorizer()#stop_words=stpwrdlst
cntTf = cntVector.fit_transform(corpus)
cntTf

lda = LatentDirichletAllocation(n_topics=2, max_iter=5,
                                learning_method='online',
                                learning_offset=50.,
                                random_state=0)
docres = lda.fit_transform(cntTf)

len(lda.components_[1]) #98
docres