床头笔记之sklearn模块TfidfVectorizer类使用

最新推荐文章于 2024-06-01 20:54:51 发布

HuangRam

最新推荐文章于 2024-06-01 20:54:51 发布

阅读量1.6k

点赞数

分类专栏：工具包床头笔记文章标签： sklearn 词频逆文档 Tfidf

本文链接：https://blog.csdn.net/HuangRam/article/details/82903139

版权

TfidfVectorizer是sklearn中的一个类，用于将文本数据转换为TF-IDF特征矩阵。它结合了CountVectorizer的功能，先计算词频，再进行TF-IDF转换。实例展示了如何初始化TfidfVectorizer，包括参数如ngram_range、min_df等。通过fit_transform方法，TfidfVectorizer能从文档中学习词汇和IDF，并返回术语-文档矩阵。

摘要由CSDN通过智能技术生成

床头笔记之sklearn模块TfidfVectorizer类使用api

class sklearn.feature_extraction.text.TfidfVectorizer(input=’content’, encoding=’utf-8’, decode_error=’strict’, strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, analyzer=’word’, stop_words=None, token_pattern=’(?u)\b\w\w+\b’, ngram_range=(1, 1), max_df=1.0, min_df=1, max_features=None, vocabulary=None, binary=False, dtype=<class ‘numpy.float64’>, norm=’l2’, use_idf=True, smooth_idf=True, sublinear_tf=False)

作用

将原始文档集合转换为TF-IDF特征矩阵。
相当于CountVectorizer，后跟TfidfTransformer。

实例：

TfidfVectorizer(analyzer=‘word’, ngram_range=(1, 5), min_df=5, norm=‘l2’)

参数：

input ：字符串{‘filename’，‘file’，‘content’}
如果是’filename’，那么作为参数传递给fit的序列应该是一个需要读取以获取要分析的原始内容的文件名列表。
如果是’file’，则序列项必须具有’read’方法（类文件对象），该方法被调用以获取内存中的字节。
否则，输入应该是序列字符串或预期直接分析的字节项。

encoding ： string，默认为’utf-8’。
如果给出要分析的字节或文件，则使用此编码进行解码。

decode_error ： {‘strict’，‘ignore’，‘replace’}
如果给出分析的字节序列包含不包含给定编码的字符，该如何操作的说明。默认情况下，它是’strict’，这意味着将引发UnicodeDecodeError。其他值为’ignore’和’replace’。

strip_accents ： {‘ascii’，‘unicode’，None}
在预处理步骤中删除重音并执行其他字符规范化。'ascii’是一种快速方法，仅适用于具有直接ASCII映射的字符。'unicode’是一种稍微慢一点的方法，适用于任何字符。无（默认）不执行任何操作。

'ascii’和’unicode’都使用NFKD标准化 unicodedata.normalize。

lowercase ：布尔值，默认为True
在标记化之前将所有字符转换为小写。

preprocessor ：可调用或无

最低0.47元/天解锁文章

HuangRam

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
床头笔记之sklearn模块TfidfVectorizer类使用

床头笔记之sklearn模块TfidfVectorizer类使用apiclass sklearn.feature_extraction.text.TfidfVectorizer(input=’content’, encoding=’utf-8’, decode_error=’strict’, strip_accents=None, lowercase=True, preprocessor=Non...
复制链接

扫一扫

专栏目录