tf-idf特征抽取

最新推荐文章于 2024-08-12 16:35:33 发布

DAN_L

最新推荐文章于 2024-08-12 16:35:33 发布

阅读量661

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/DAN_L/article/details/105024917

版权

TF-IDF是一种评估词在文件集或语料库中重要性的方法，常用于分类机器学习算法。sklearn库提供了TfidfVectorizer类来实现TF-IDF转换。通过实例展示了如何使用jieba分词和TfidfVectorizer进行文本处理，返回词的权重矩阵并进行逆变换。

摘要由CSDN通过智能技术生成

一、原理
如果某个词或短语在一篇文章中出现的概率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。
二、作用
用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。是分类机器学习算法的的重要依据。
三、类
sklearn.feature_extraction.text.TfidfVectorizer
四、TfidfVectorizer语法
TfidfVectorizer(stop_words=None,…)
返回词的权重矩阵
（一）TfidfVectorizer.fit_transform(x,y)
x：文本或者包含文本字符串的可迭代对象
返回值：返回sparse矩阵
（二）TfidfVectorizer.inverse_transform(x)
x：array数组或者sparse矩阵
返回值:转换之前数据格式
（三）TfidfVectorizer.get_feature_names()
返回值:单词列表
例如：