Gensim:TF-IDF

调用gensim库对训练集文本得到文本的TF-IDF表示

# 将文档转换成词典和词库
def CorpusAndDic(texts):
    # 词典
    dictionary = gensim.corpora.Dictionary(texts)
    # 词库,以(词,词频方式存储)
    corpus = [dictionary.doc2bow(text) for text in texts]
    print("词典:", dictionary)
    print("词库:", corpus)
    return dictionary, corpus
dictionary, corpus = CorpusAndDic(out_sentences)
# 初始化TF-IDF模型,corpus作为语料库
tfidf = gensim.models.TfidfModel(corpus)
# 使用tfidf模型将自身的词库转换成tf-idf表示
corpus_tfidf = tfidf[corpus]
index = 1
for doc in corpus_tfidf:
    print('第',index,'个文档:',doc)
    index+=1

词向量部分代码参考:Gensim:word2vec(jieba分词,去停用词)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值