python多维向量聚类_K表示n维向量上的聚类。

我将TFIDF应用于文本文档,其中我得到不同长度的n维向量,每个向量对应于一个文档。在texts = [[token for token in text if frequency[token] > 1] for text in texts]

dictionary = corpora.Dictionary(texts)

corpus = [dictionary.doc2bow(text) for text in texts]

lda = models.ldamodel.LdaModel(corpus, num_topics=100, id2word=dictionary)

tfidf = models.TfidfModel(corpus)

corpus_tfidf = tfidf[corpus]

lsi = models.LsiModel(corpus_tfidf, id2word=dictionary, num_topics=100)

corpus_lsi = lsi[corpus_tfidf]

corpus_lda=lda[corpus]

print "TFIDF:"

print corpus_tfidf[1]

print "__________________________________________"

print corpus_tfidf[2]

其输出为:

^{pr2}$

未表示的向量点为0。也就是说(18,…)在向量中不存在,那么它就是0。在

我想在这些向量上应用K均值聚类(Vec1和Vec2)

Scikit的K表示聚类需要等维矩阵形式的向量。对此该怎么办?在

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值