床头笔记之sklearn模块TfidfVectorizer类使用

TfidfVectorizer是sklearn中的一个类,用于将文本数据转换为TF-IDF特征矩阵。它结合了CountVectorizer的功能,先计算词频,再进行TF-IDF转换。实例展示了如何初始化TfidfVectorizer,包括参数如ngram_range、min_df等。通过fit_transform方法,TfidfVectorizer能从文档中学习词汇和IDF,并返回术语-文档矩阵。
摘要由CSDN通过智能技术生成

床头笔记之sklearn模块TfidfVectorizer类使用api

class sklearn.feature_extraction.text.TfidfVectorizer(input=’content’, encoding=’utf-8’, decode_error=’strict’, strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, analyzer=’word’, stop_words=None, token_pattern=’(?u)\b\w\w+\b’, ngram_range=(1, 1), max_df=1.0, min_df=1, max_features=None, vocabulary=None, binary=False, dtype=<class ‘numpy.float64’>, norm=’l2’, use_idf=True, smooth_idf=True, sublinear_tf=False)

作用

将原始文档集合转换为TF-IDF特征矩阵。
相当于CountVectorizer,后跟TfidfTransformer。

实例:

TfidfVectorizer(analyzer=‘word’, ngram_range=(1, 5), min_df=5, norm=‘l2’)

参数:

input : 字符串{‘filename’,‘file’,‘content’}
如果是’filename’,那么作为参数传递给fit的序列应该是一个需要读取以获取要分析的原始内容的文件名列表。
如果是’file’,则序列项必须具有’read’方法(类文件对象),该方法被调用以获取内存中的字节。
否则,输入应该是序列字符串或预期直接分析的字节项。

encoding : string,默认为’utf-8’。
如果给出要分析的字节或文件,则使用此编码进行解码。

decode_error : {‘strict’,‘ignore’,‘replace’}
如果给出分析的字节序列包含不包含给定编码的字符,该如何操作的说明。默认情况下,它是’strict’,这意味着将引发UnicodeDecodeError。其他值为’ignore’和’replace’。

strip_accents : {‘ascii’,‘unicode’,None}
在预处理步骤中删除重音并执行其他字符规范化。'ascii’是一种快速方法,仅适用于具有直接ASCII映射的字符。'unicode’是一种稍微慢一点的方法,适用于任何字符。无(默认)不执行任何操作。

'ascii’和’unicode’都使用NFKD标准化 unicodedata.normalize。

lowercase : 布尔值,默认为True
在标记化之前将所有字符转换为小写。

preprocessor : 可调用或无

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值