- TF-IDF是Term Frequency - Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。 I D F ( x ) = l o g N N ( x ) IDF(x) = log\frac{N}{N(x)} IDF(x)=logN(x)N
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = = TfidfVectorizer(stop_words=stpwrdlst, sublinear_tf = True, max_df = 0.5)
vectorizer = tfidf.fit_transform(corpus)
-
stop_words:string {‘english’}, list, or None(default)
english,用于英语内建的停用词列表
list,该列表被假定为包含停用词,列表中的所有词都将从令牌中删除
None,不使用停用词
-
max_df: float in range [0.0, 1.0] or int, optional, 1.0 by default
当构建词汇表时,严格忽略高于给出阈值的文档频率的词条,语料指定的停用词。如果是浮点值,该参数代表文档的比例,整型绝对计数值。
-
min_df:float in range [0.0, 1.0] or int, optional, 1.0 by default
当构建词汇表时,严格忽略低于给出阈值的文档频率的词条,语料指定的停用词。如果是浮点值,该参数代表文档的比例,整型绝对计数值。
-
max_features: optional, None by default
构建一个词汇表,仅考虑max_features–按语料词频排序