20190624——文本特征抽取TfidVertorizer

在某一个类别的文章中,出现的次数很多,但是在其他类别的文章中出现很少
这样的词就是关键词

文本抽取第二种方法TfidVertorizer
这样方法可以自动地找出关键词,
在这里插入图片描述
根据在文章中出现的词,我们可以大概得出来这个文章在讲一些什么内容

在这里插入图片描述

Tf-idf的文本特征提取。tf-idf的主要思想是:如果某个词或者短语在一篇文章出现的概率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
tf-idf作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文章的重要程度。

TF(term frequency) 叫做词频,指的是某一个给定的词语在该文件中出现的频率
逆向文档频率(inverse document frequency,idf )是一个词语普遍重要性的度量,某一特定词语的idf,可以由总文件数目除以包含该词语之文件的数目,再将得到的商以10为底的对数所得到。

两个词, 一个词叫经济,一个叫非常
1000篇文章作为我们的语料库
100篇文章都有非常
只有10篇文章有经济

现在有两篇文章A,B
A出现了10次经济
另一篇文章B出现了10次非常

现在需要计算Tf-idf的值
文章A,B各有100个词
tf=10/100=0.1 相同
idf=1000/100= 10
log10 10=1
idf=1000/10 = 100
log 10 100 =2

文章A tf-idf=0.12=0.2
文章B tf-idf = 0.1
1=0.1

所以经济这个词具有更高的这个TF-IDF的值。

在这里插入图片描述
值越大说明这个词越有意义

分类机器学习算法进行文章分类中前期数据处理方式

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值