TF/IDF概念学习笔记

最新推荐文章于 2023-05-12 18:59:47 发布

码农CGGG

最新推荐文章于 2023-05-12 18:59:47 发布

阅读量74

点赞数

分类专栏：算法数学文章标签：游戏搜索引擎领域模型 F#

算法数学专栏收录该内容

4 篇文章 0 订阅

订阅专栏

今天晚上加班开发一套程序界面，等回到家已经11点30了。本来打算继续写我的GDE-X引擎，时间已经不够了。那么就学习一点东西吧，打开放在桌面上的吴军老师的《数学之美》，顿时发现一片新的天地。

—— TF/IDF概念。（turn frequency/Inverse document frequency）也称为词汇频率/逆向文本频率。

该技术是信息检索领域最重要的思想，用于确定检索关键词与被检索文本的相关性。

如何确定关键词与被检索文本的相关性呢？从我们直观上来说，首先需要词匹配、其次需要对于我们的关键词有个衡量标准，比如搜“网络游戏的现状”，那么我们可以肯定 “网络游戏”在关键字中的分量要比“现状”更加重要，而“的”这个助词基本可以忽略。

我们可以将搜索关键字进行中文分词，假如得到 C1，C2，C3...Cn个分词。

那么对于每个分词我们有个权值，作为它的重要程度，比如W1，W2，W3。。。。Wn。

所以越专业的词，我们就认为它的权值更高。如上例中网络游戏就比现状的权值高。

那么某段记录的与我们的关键字的相关性计算公式如下：

F = 词频1 * W1 + 词频2 * W2 + .... + 词频N * WN

词频就是该词在记录中出现的频率，（频率 = 出现次数 / 记录中词总数）

这一部分我们叫做 TF（词汇频率）概念。

然后我们需要求得各个词的权值，我们通过IDF（逆向文本）概念：

分析所有的被检索记录，若一个词出现得越多，则这个词越不重要。（越大众化）

若一个词出现得越少，则这个词越重要。（专业化）

对于词CN，若它在 n 个记录中出现过，假设系统总共有 m 条记录，则其权值计算公式为：

W = log( m / n )

为什么是log？——这个据说证明相当复杂，但最终证明log是合理的。

这部分计算概念即为 IDF。

以这个概念为基础数学模型，提供一种在海量信息中建立对于关键字相关性的计算机制。这也是搜索引擎的一个基本数学基础。

——非常简单，但是强大！

然后自己有点想法，改天可以自己实现一个简单的TF/IDF，再基于这个，研究一下是否可以做一个文章错别字检测的程序。（貌似WORD里有相关功能，但是不太好用？）——需要具体调研。。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
TF/IDF概念学习笔记

今天晚上加班开发一套程序界面，等回到家已经11点30了。本来打算继续写我的GDE-X引擎，时间已经不够了。那么就学习一点东西吧，打开放在桌面上的吴军老师的《数学之美》，顿时发现一片新的天地。 —— TF/IDF概念。（turn frequency/Inverse document frequency）也称为词汇频率/逆向文本频率。该技术是信息检索领域最重要的思想，用于确定检索关键...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。