sklearn.feature_extraction

最新推荐文章于 2024-02-08 15:41:24 发布

kakak_

最新推荐文章于 2024-02-08 15:41:24 发布

阅读量536

点赞数

分类专栏： Data mining

本文链接：https://blog.csdn.net/kakak_/article/details/106484954

版权

Data mining 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

TF-IDF是Term Frequency - Inverse Document Frequency的缩写，即“词频-逆文本频率”。它由两部分组成，TF和IDF。 $log\frac{N}{N(x)}$

from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = = TfidfVectorizer(stop_words=stpwrdlst, sublinear_tf = True, max_df = 0.5)
vectorizer = tfidf.fit_transform(corpus)

stop_words：string {‘english’}, list, or None(default)

english，用于英语内建的停用词列表

list，该列表被假定为包含停用词，列表中的所有词都将从令牌中删除

None，不使用停用词
max_df： float in range [0.0, 1.0] or int, optional, 1.0 by default

当构建词汇表时，严格忽略高于给出阈值的文档频率的词条，语料指定的停用词。如果是浮点值，该参数代表文档的比例，整型绝对计数值。
min_df：float in range [0.0, 1.0] or int, optional, 1.0 by default

当构建词汇表时，严格忽略低于给出阈值的文档频率的词条，语料指定的停用词。如果是浮点值，该参数代表文档的比例，整型绝对计数值。
max_features： optional， None by default

构建一个词汇表，仅考虑max_features–按语料词频排序