Gensim：TF-IDF

最新推荐文章于 2024-02-25 15:17:58 发布

catEyesL

最新推荐文章于 2024-02-25 15:17:58 发布

阅读量1.4k

点赞数

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/qqMiSa/article/details/104550780

版权

自然语言处理专栏收录该内容

5 篇文章 0 订阅

订阅专栏

调用gensim库对训练集文本得到文本的TF-IDF表示

# 将文档转换成词典和词库
def CorpusAndDic(texts):
    # 词典
    dictionary = gensim.corpora.Dictionary(texts)
    # 词库，以（词，词频方式存储）
    corpus = [dictionary.doc2bow(text) for text in texts]
    print("词典：", dictionary)
    print("词库：", corpus)
    return dictionary, corpus
dictionary, corpus = CorpusAndDic(out_sentences)
# 初始化TF-IDF模型，corpus作为语料库
tfidf = gensim.models.TfidfModel(corpus)
# 使用tfidf模型将自身的词库转换成tf-idf表示
corpus_tfidf = tfidf[corpus]
index = 1
for doc in corpus_tfidf:
    print('第',index,'个文档：',doc)
    index+=1

词向量部分代码参考：Gensim：word2vec（jieba分词，去停用词）