sklearn计算多分类的TFIDF

最新推荐文章于 2023-11-27 09:26:52 发布

assasinSteven

最新推荐文章于 2023-11-27 09:26:52 发布

阅读量801

点赞数

分类专栏： python 文章标签： TFIDF

本文链接：https://blog.csdn.net/assasin0308/article/details/103837468

版权

python 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

# -*- coding: utf-8 -*-
#-----------------------------------------------------------------------------------------------------------------------
__Author__ = 'assasin'
__DateTime__ = '2020/1/4 19:23'
#-----------------------------------------------------------------------------------------------------------------------

from stop_words import readFile,seg_doc
# pip install sklearn
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer

# 利用sklearn 计算tfidf值特征

def sklearn_tfidf_feature(corpus=None):
    # 构建词汇表
    vectorize = CountVectorizer()
    # 该类会统计每一个词语的tfidf值
    transformer = TfidfTransformer()
    tfidf = transformer.fit_transform(vectorize.fit_transform(corpus))
    # print(tfidf)
    # 获取词袋模型中所有的词语
    words = vectorize.get_feature_names()
    # 将tf-idf矩阵抽取出来,元素a[i][j]表示此词在i类文本中的权重
    weight = tfidf.toarray()
    # print(weight)
    for i in range(len(weight)):
        print(u"-----这里输出第",i,u"类文本的词语tf-idf权重")
        for j in range(len(words)):
            print(words[j],weight[i][j])

if __name__ == '__main__':
    corpus = []
    path = r'./datas/体育/11.txt'
    str_doc = readFile(path)
    word_list1 = ' '.join(seg_doc(str_doc))
    # print(word_list1)

    path = r'./datas/时政/339764.txt'
    str_doc = readFile(path)
    word_list2 = ' '.join(seg_doc(str_doc))
    # print(word_list2)

    corpus.append(word_list1)
    corpus.append(word_list2)
    # print(corpus)
    sklearn_tfidf_feature(corpus)