搜索引擎学习之二:文本匹配

我的想法是从TF/IDF入手的.前阵子老师又建议我去看看知网,也大概的看了一下,不是很懂,不过也基本了解是怎么回事.老师给的方向是从文本相似度匹配入手,不要去做搜索引擎,做这一块就行了.奈何我是个贪心的人,总是想去知道

先说说TF/IDF.

         TF/IDF计算是基于向量空间的。给定一篇文本,将其切词,得到空间向量(w0,w1……,wn)。其中wi为第i个单词。设每一wi相应的词频为TFi(TF: term frequency),得空间向量(TF0,TF1,TF2……TFn),sigma TFi = 1。

        IDF(Inverse document frequency 缩写为IDF,“逆文本频率”)用来计算词的权重问题。假设语料库中全部文档数D,出现关键词W的文档数Dw,IDF = In(D/Dw)。假设总文档数10万篇,出现“网络游戏”的文档数1万篇,出现“货币”文档8万篇,则“网路游戏”的权重IDF=In(10万/1万)=2.30,“货币”权重IDF=In(10万/8万)=0.22。

给定两篇文章,一种判断其相似性的方法就是利用 TF/IDF来计算其空间向量的夹角表示其相似的程度。
设有文章 A、文章B。我们将其切词,并对其每个单词计算TF/IDF,得空间向量A(TF/IDF0……TF/IDFn)记为(a0,a1……an),B(TF/IDF0……TF/IDFn)记为(b0,b1……bn)。空间向量夹角余弦等于:
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值