搜索引擎学习之二:文本匹配

最新推荐文章于 2022-02-23 13:19:48 发布

hzxdark

最新推荐文章于 2022-02-23 13:19:48 发布

阅读量2.2k

点赞数

分类专栏：技术人生文章标签：搜索引擎文档网络游戏 google 教育游戏

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hzxdark/article/details/1373661

版权

我的想法是从TF/IDF入手的.前阵子老师又建议我去看看知网,也大概的看了一下,不是很懂,不过也基本了解是怎么回事.老师给的方向是从文本相似度匹配入手,不要去做搜索引擎,做这一块就行了.奈何我是个贪心的人,总是想去知道

先说说TF/IDF.

TF/IDF计算是基于向量空间的。给定一篇文本，将其切词，得到空间向量（w0，w1……，wn）。其中wi为第i个单词。设每一wi相应的词频为TFi（TF: term frequency），得空间向量(TF0，TF1，TF2……TFn)，sigma TFi = 1。

IDF（Inverse document frequency 缩写为ＩＤＦ，“逆文本频率”）用来计算词的权重问题。假设语料库中全部文档数D，出现关键词W的文档数Dw，IDF = In(D/Dw)。假设总文档数10万篇，出现“网络游戏”的文档数1万篇，出现“货币”文档8万篇，则“网路游戏”的权重IDF=In(10万/1万)=2.30，“货币”权重IDF=In(10万/8万)=0.22。

给定两篇文章，一种判断其相似性的方法就是利用 TF/IDF来计算其空间向量的夹角表示其相似的程度。

设有文章 A、文章B。我们将其切词，并对其每个单词计算TF/IDF，得空间向量A(TF/IDF0……TF/IDFn)记为（a0，a1……an），B(TF/IDF0……TF/IDFn)记为(b0，b1……bn)。空间向量夹角余弦等于：

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
搜索引擎学习之二:文本匹配

我的想法是从TF/IDF入手的.前阵子老师又建议我去看看知网,也大概的看了一下,不是很懂,不过也基本了解是怎么回事.老师给的方向是从文本相似度匹配入手,不要去做搜索引擎,做这一块就行了.奈何我是个贪心的人,总是想去知道先说说TF/IDF. TF/IDF计算是基于向量空间的。给定一篇文本，将其切词，得到空间向量（w0，w1……，wn）。其中wi为第i个单词。设每一wi相应的词
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。