床头笔记之sklearn模块TfidfVectorizer类使用api
class sklearn.feature_extraction.text.TfidfVectorizer(input=’content’, encoding=’utf-8’, decode_error=’strict’, strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, analyzer=’word’, stop_words=None, token_pattern=’(?u)\b\w\w+\b’, ngram_range=(1, 1), max_df=1.0, min_df=1, max_features=None, vocabulary=None, binary=False, dtype=<class ‘numpy.float64’>, norm=’l2’, use_idf=True, smooth_idf=True, sublinear_tf=False)
作用
将原始文档集合转换为TF-IDF特征矩阵。
相当于CountVectorizer,后跟TfidfTransformer。
实例:
TfidfVectorizer(analyzer=‘word’, ngram_range=(1, 5), min_df=5, norm=‘l2’)
参数:
input : 字符串{‘filename’,‘file’,‘content’}
如果是’filename’,那么作为参数传递给fit的序列应该是一个需要读取以获取要分析的原始内容的文件名列表。
如果是’file’,则序列项必须具有’read’方法(类文件对象),该方法被调用以获取内存中的字节。
否则,输入应该是序列字符串或预期直接分析的字节项。
encoding : string,默认为’utf-8’。
如果给出要分析的字节或文件,则使用此编码进行解码。
decode_error : {‘strict’,‘ignore’,‘replace’}
如果给出分析的字节序列包含不包含给定编码的字符,该如何操作的说明。默认情况下,它是’strict’,这意味着将引发UnicodeDecodeError。其他值为’ignore’和’replace’。
strip_accents : {‘ascii’,‘unicode’,None}
在预处理步骤中删除重音并执行其他字符规范化。'ascii’是一种快速方法,仅适用于具有直接ASCII映射的字符。'unicode’是一种稍微慢一点的方法,适用于任何字符。无(默认)不执行任何操作。
'ascii’和’unicode’都使用NFKD标准化 unicodedata.normalize。
lowercase : 布尔值,默认为True
在标记化之前将所有字符转换为小写。
preprocessor : 可调用或无