TS-IDF算法介绍

还记得我们毕业时为自己的毕业论文被抽查到进行相似度对比而捏一把汗的场景吗?那么文库系统是如何进行文章相似度对比的呢?

简介

百度百科的解释是TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆向文件频率(Inverse Document Frequency)。

这个算法可以用来评估一个词语对于一个文件或者一个语料库的重要程度,即可用它来提取文章关键字。

词频与逆向文件频率

当我们试图去找出论文中的关键字的时候,一般而言我们会首先去找到出现次数最多的那些词语,这个出现次数就叫词频。

根据经验我们也应该猜得到,论文中出现最多的可能为“是”,“的”这类词语,这种词语叫做停用词,显然应该过滤掉这类词。过滤掉这类词语后,词频最高的那些词语就是关键字了吗?显然也不是,如果某个生词在一篇论文中词频很高,那么可能这个生词最有可能是论文的关键字。我们可以给这个生词赋予较高的权重,这个权重就叫逆向文件频率,它与词语的常见程度成反比。

计算TS-IDF

由上可见:TS-IDF = TS * IDF

有:TF-IDF值与该词的出现频率成正比,与在整个语料库中的出现次数成反比。


现在可以解决文章开头提出的问题了,当我们计算出文章TS-IDF值之后,进而提取出关键字组成一个集合,计算每篇论文对于这个集合中的词的词频,生成两篇论文各自的词频向量,进而通过欧氏距离或余弦距离求出两个向量的余弦相似度,值越大就表示越相似。


文章参考:http://www.cnblogs.com/ybjourney/p/4793370.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值