20190624——文本特征抽取TfidVertorizer

最新推荐文章于 2024-05-31 22:17:00 发布

宫城诗

最新推荐文章于 2024-05-31 22:17:00 发布

阅读量590

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36344771/article/details/93506985

版权

在某一个类别的文章中，出现的次数很多，但是在其他类别的文章中出现很少
这样的词就是关键词

文本抽取第二种方法TfidVertorizer
这样方法可以自动地找出关键词，
在这里插入图片描述
根据在文章中出现的词，我们可以大概得出来这个文章在讲一些什么内容

在这里插入图片描述

Tf-idf的文本特征提取。tf-idf的主要思想是：如果某个词或者短语在一篇文章出现的概率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。
tf-idf作用：用以评估一字词对于一个文件集或一个语料库中的其中一份文章的重要程度。

TF（term frequency）叫做词频，指的是某一个给定的词语在该文件中出现的频率
逆向文档频率（inverse document frequency,idf ）是一个词语普遍重要性的度量，某一特定词语的idf，可以由总文件数目除以包含该词语之文件的数目，再将得到的商以10为底的对数所得到。

两个词，一个词叫经济，一个叫非常
1000篇文章作为我们的语料库
100篇文章都有非常
只有10篇文章有经济

现在有两篇文章A,B
A出现了10次经济
另一篇文章B出现了10次非常

现在需要计算Tf-idf的值
文章A，B各有100个词
tf=10/100=0.1 相同
idf=1000/100= 10
log10 10=1
idf=1000/10 = 100
log 10 100 =2

文章A tf-idf=0.12=0.2
文章B tf-idf = 0.11=0.1

所以经济这个词具有更高的这个TF-IDF的值。

在这里插入图片描述
值越大说明这个词越有意义

分类机器学习算法进行文章分类中前期数据处理方式

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。