在某一个类别的文章中,出现的次数很多,但是在其他类别的文章中出现很少
这样的词就是关键词
文本抽取第二种方法TfidVertorizer
这样方法可以自动地找出关键词,
根据在文章中出现的词,我们可以大概得出来这个文章在讲一些什么内容
Tf-idf的文本特征提取。tf-idf的主要思想是:如果某个词或者短语在一篇文章出现的概率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
tf-idf作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文章的重要程度。
TF(term frequency) 叫做词频,指的是某一个给定的词语在该文件中出现的频率
逆向文档频率(inverse document frequency,idf )是一个词语普遍重要性的度量,某一特定词语的idf,可以由总文件数目除以包含该词语之文件的数目,再将得到的商以10为底的对数所得到。
两个词, 一个词叫经济,一个叫非常
1000篇文章作为我们的语料库
100篇文章都有非常
只有10篇文章有经济
现在有两篇文章A,B
A出现了10次经济
另一篇文章B出现了10次非常
现在需要计算Tf-idf的值
文章A,B各有100个词
tf=10/100=0.1 相同
idf=1000/100= 10
log10 10=1
idf=1000/10 = 100
log 10 100 =2
文章A tf-idf=0.12=0.2
文章B tf-idf = 0.11=0.1
所以经济这个词具有更高的这个TF-IDF的值。
值越大说明这个词越有意义
分类机器学习算法进行文章分类中前期数据处理方式