英文关键词计算tf-idf 余弦相似度_TFIDF原理与实践

最新推荐文章于 2023-05-12 18:59:47 发布

VIP文章李士季

最新推荐文章于 2023-05-12 18:59:47 发布

阅读量1k

点赞数

文章标签：英文关键词计算tf-idf 余弦相似度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36111677/article/details/113411516

版权

TF-IDF原理

TF-IDF通常应用于文本关键词提取。要提取一个文章的关键词，一个容易想到的思路就是找到出现次数最多的几个词。这是因为如果某个词很重要，它应该在这篇文章中多次出现。于是，我们进行"词频"(Term Frequency，缩写为TF)统计。

然而，出现次数最多的词是----"的"、"是"、"在"----这一类最常用的词，无法代表文章的关键词。这种类型的词叫做"停用词"(stop words)，表示对找到结果毫无帮助、必须过滤掉的词。

在把“停用词”全部过滤掉之后。按照“词频”统计得到的频次最多的几个词就可以代表一篇文章的关键词吗？此时，还需要考虑到这些高频词是否是在其他文章中很少出现，只有满足这两个条件，得到的词才是代表这篇文章的关键词。

所以，需要一个重要性调整系数，衡量一个词是不是常见词。如果某个词比较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性，正是我们所需要的关键词。

用统计学语言表达，就是在词频的基础上，要对每个词分配一个"重要性"权重。最常见的词("的"、"是"、"在")给予最小的权重，较常见的词给予较小的权重，较少见的词给予较大的

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
英文关键词计算tf-idf 余弦相似度_TFIDF原理与实践

TF-IDF原理 TF-IDF通常应用于文本关键词提取。要提取一个文章的关键词，一个容易想到的思路就是找到出现次数最多的几个词。这是因为如果某个词很重要，它应该在这篇文章中多次出现。于是，我们进行"词频"(Term Frequency，缩写为TF)统计。然而，出现次数最多的词是----"的"、"是"、"在"----这一类最常用的词，无法代表文章的关键词。这种类型的词叫做"停用...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。