TF-IDF学习完全指南

最新推荐文章于 2024-08-18 21:50:43 发布

一颗西蓝花

最新推荐文章于 2024-08-18 21:50:43 发布

阅读量512

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/weixin_41160054/article/details/100852212

版权

TF-IDF是一种信息检索模型，用于从非结构化文本中提取结构化数据。TF-IDF结合了词频（TF）和逆文档频率（IDF），在搜索引擎、关键词提取、文本相似性和文本摘要中有广泛应用。它通过词频乘以逆文档频率来计算词的重要性，从而减少常见词汇的影响。

摘要由CSDN通过智能技术生成

目标：写给完全没有算法基础的同学们学习TF-IDF
目录：

在当前工作中，很多时候，我们需要从非结构化的文本中，提取出结构化的数据。这也可以被称为「信息检索」。
经典的信息检索模型包括布尔模型，向量模型，以及TF-IDF模型。

布尔模型该模型以集合的布尔运算为基础，查询效率高，但模型过于简单，无法有效地对文档进行排序，所以查询效果不佳。
向量模型向量模型把文档和查询都视为词所构成的多维向量，而文档与查询的相关性即对应向量间的夹角。不过，由于通常词的数量巨大，向量纬度非常高，而大量的纬度都是 0，计算向量夹角的效果并不好。另外，庞大的计算量也使得向量模型几乎不具备在互联网搜索引擎这样海量数据集上具有可实施性。
TF-IDF模型，TF模型的思路是，如果词 w 在一篇文档 d 中出现的频率高，并且在其他文档中很少出现，那么我们可以认为词 w 具有很好的区分能力，适合把文章 d 和其他文章区分开来
在上述情况下，让我们来更近一步地了解 TF-IDF。

2.1 TF
TF (Term Frequency) 即词频。

关注

专栏目录