sklearn.feature_extraction

  • TF-IDF是Term Frequency - Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。 I D F ( x ) = l o g N N ( x ) IDF(x) = log\frac{N}{N(x)} IDF(x)=logN(x)N
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = = TfidfVectorizer(stop_words=stpwrdlst, sublinear_tf = True, max_df = 0.5)
vectorizer = tfidf.fit_transform(corpus)
 
  1. stop_words:string {‘english’}, list, or None(default)

    english,用于英语内建的停用词列表

    list,该列表被假定为包含停用词,列表中的所有词都将从令牌中删除

    None,不使用停用词

  2. max_df: float in range [0.0, 1.0] or int, optional, 1.0 by default

    当构建词汇表时,严格忽略高于给出阈值的文档频率的词条,语料指定的停用词。如果是浮点值,该参数代表文档的比例,整型绝对计数值。

  3. min_df:float in range [0.0, 1.0] or int, optional, 1.0 by default

    当构建词汇表时,严格忽略低于给出阈值的文档频率的词条,语料指定的停用词。如果是浮点值,该参数代表文档的比例,整型绝对计数值。

  4. max_features: optional, None by default

    构建一个词汇表,仅考虑max_features–按语料词频排序

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值