【机器学习】sklearn库的学习之TF-IDF算法，python，超简单！

最新推荐文章于 2021-09-29 16:46:43 发布

HelenLee01

最新推荐文章于 2021-09-29 16:46:43 发布

阅读量1k

点赞数 1

分类专栏：机器学习文章标签： TF-IDF python 机器学习 sklearn 算法

本文链接：https://blog.csdn.net/weixin_43289135/article/details/104649440

版权

Sklearn库的学习之TF-IDF算法：

# coding:utf-8
import jieba
import jieba.posseg as pseg
import os
import sys
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
 
if __name__ == "__main__":
    corpus=["我 喜欢 超级 赛亚人",#第一类文本切词后的结果，词之间以空格隔开
		"他 喜欢 哪吒",#第二类文本的切词结果
		"一切 困难 我们 都 能 战胜 奥力给",#第三类文本的切词结果
		"今天 又 是 元气满满 的 一天"]#第四类文本的切词结果
    vectorizer=CountVectorizer()#该类会将文本中的词语转换为词频矩阵，矩阵元素a[i][j] 表示j词在i类文本下的词频
    transformer=TfidfTransformer()#该类会统计每个词语的tf-idf权值
    tfidf=transformer.fit_transform(vectorizer.fit_transform(corpus))#第一个fit_transform是计算tf-idf，第二个fit_transform是将文本转为词频矩阵
    word=vectorizer.get_feature_names()#获取词袋模型中的所有词语
    weight=tfidf.toarray()#将tf-idf矩阵抽取出来，元素a[i][j]表示j词在i类文本中的tf-idf权重
    for i in range(len(weight)):#打印每类文本的tf-i

最低0.47元/天解锁文章

HelenLee01

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
【机器学习】sklearn库的学习之TF-IDF算法，python，超简单！

Sklearn库的学习之TF-IDF算法：# coding:utf-8import jiebaimport jieba.posseg as psegimport osimport sysfrom sklearn import feature_extractionfrom sklearn.feature_extraction.text import TfidfTransformer...
复制链接

扫一扫