sklearn 学习笔记

最新推荐文章于 2022-01-09 14:52:33 发布

追风人丶丶

最新推荐文章于 2022-01-09 14:52:33 发布

阅读量113

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_42664380/article/details/96574632

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

sklearn.feature_extraction.text.TfidfVectorizer

官方文档：https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html

TfidfVectorizer(input=’content’, encoding=’utf-8’, decode_error=’strict’, strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, analyzer=’word’, stop_words=None, token_pattern=’(?u)\b\w\w+\b’, ngram_range=(1, 1), max_df=1.0, min_df=1, max_features=None, vocabulary=None, binary=False, dtype=<class ‘numpy.float64’>, norm=’l2’, use_idf=True, smooth_idf=True, sublinear_tf=False

什么是TF-IDF？

TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).
是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

简而言之就是表征出一个词对于一篇文档的重要程度。
对于一篇文章中，TF-IDF可以表征出文章中的关键词，那么，对于sklearn中的TF-IDF是如何计算的呢?

计算词频
计算TF-IDF

通过TF-IDF，就可以把每个句子用一个向量表示出来了，向量中的数值也反应了词对于这个句子的重要程度（当然计算全局词频是按照所有句子计算的，局部词频是本句子）。

下面，我们来理解一下TfidfVectorizer中的主要参数：

ngram_range(min,max)是指将text分成min，min+1，min+2,…max 个不同的词组
比如’Python is useful’中ngram_range(1,3)之后可得到’Python’ ‘is’ ‘useful’ ‘Python is’ ‘is useful’ 和’Python is useful’
如果是ngram_range (1,1) 则只能得到单个单词’Python’ ‘is’和’useful’
max_df 当构建词汇表时，严格忽略高于给出阈值的文档频率的词条，语料指定的停用词。如果是浮点值，该参数代表文档的比例，整型绝对计数值，如果词汇表不为None，此参数被忽略。
同理 min_df

追风人丶丶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
sklearn 学习笔记

sklearn.feature_extraction.text.TfidfVectorizer官方文档：https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.htmlTfidfVectorizer(input=’content’, encoding=’u...
复制链接

扫一扫