TS-IDF算法介绍

最新推荐文章于 2020-10-25 10:07:41 发布

三爷麋了鹿

最新推荐文章于 2020-10-25 10:07:41 发布

阅读量506

点赞数

分类专栏：算法文章标签：算法自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u800820/article/details/79403567

版权

算法专栏收录该内容

5 篇文章 0 订阅

订阅专栏

还记得我们毕业时为自己的毕业论文被抽查到进行相似度对比而捏一把汗的场景吗？那么文库系统是如何进行文章相似度对比的呢？

简介

百度百科的解释是TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency)，IDF意思是逆向文件频率(Inverse Document Frequency)。

这个算法可以用来评估一个词语对于一个文件或者一个语料库的重要程度，即可用它来提取文章关键字。

词频与逆向文件频率

当我们试图去找出论文中的关键字的时候，一般而言我们会首先去找到出现次数最多的那些词语，这个出现次数就叫词频。

根据经验我们也应该猜得到，论文中出现最多的可能为“是”，“的”这类词语，这种词语叫做停用词，显然应该过滤掉这类词。过滤掉这类词语后，词频最高的那些词语就是关键字了吗？显然也不是，如果某个生词在一篇论文中词频很高，那么可能这个生词最有可能是论文的关键字。我们可以给这个生词赋予较高的权重，这个权重就叫逆向文件频率，它与词语的常见程度成反比。

计算TS-IDF

由上可见：TS-IDF = TS * IDF

有：TF-IDF值与该词的出现频率成正比，与在整个语料库中的出现次数成反比。

现在可以解决文章开头提出的问题了，当我们计算出文章TS-IDF值之后，进而提取出关键字组成一个集合，计算每篇论文对于这个集合中的词的词频，生成两篇论文各自的词频向量，进而通过欧氏距离或余弦距离求出两个向量的余弦相似度，值越大就表示越相似。

文章参考：http://www.cnblogs.com/ybjourney/p/4793370.html

三爷麋了鹿

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
TS-IDF算法介绍

&gt;还记得我们毕业时为自己的毕业论文被抽查到进行相似度对比而捏一把汗的场景吗？那么文库系统是如何进行文章相似度对比的呢？#### 简介百度百科的解释是TF-IDF（termfrequency–inversedocumentfrequency）是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(TermFrequency)，IDF意思是逆向文件频率(InverseDocumen...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。