TD-IDF

最新推荐文章于 2024-06-15 10:15:20 发布

冰菓(笑)

最新推荐文章于 2024-06-15 10:15:20 发布

阅读量2.3k

点赞数 6

分类专栏： NLP

本文链接：https://blog.csdn.net/a362682954/article/details/106141694

版权

TF-IDF是一种用于信息检索和自然语言处理的权重计算方法，它结合了单词频率（TF）和逆文档频率（IDF）。TF-IDF通过惩罚常见单词和提升在较少文档中出现的单词来评估单词的重要性。gensim库提供了实现TF-IDF模型的工具，包括余弦相似度计算，可用于文章推荐。训练阶段涉及将文本转换为TF-IDF向量，生成字典和语料，然后训练模型并建立相似度索引。在测试阶段，可以使用索引计算新文本与训练集的余弦相似度，以进行文章推荐。

摘要由CSDN通过智能技术生成

什么是 TF-IDF 算法？

简单来说，向量空间模型就是希望把查询关键字和文档都表达成向量，然后利用向量之间的运算来进一步表达向量间的关系。比如，一个比较常用的运算就是计算查询关键字所对应的向量和文档所对应的向量之间的 “相关度”。

在这里插入图片描述

TF （Term Frequency）—— “单词频率”

意思就是说，我们计算一个查询关键字中某一个单词在目标文档中出现的次数。举例说来，如果我们要查询 “Car Insurance”，那么对于每一个文档，我们都计算“Car” 这个单词在其中出现了多少次，“Insurance”这个单词在其中出现了多少次。这个就是 TF 的计算方法。

TF 背后的隐含的假设是，查询关键字中的单词应该相对于其他单词更加重要，而文档的重要程度，也就是相关度，与单词在文档中出现的次数成正比。比如，“Car” 这个单词在文档 A 里出现了 5 次，而在文档 B 里出现了 20 次，那么 TF 计算就认为文档 B 可能更相关。

然而，信息检索工作者很快就发现，仅有 TF 不能比较完整地描述文档的相关度。因为语言的因素，有一些单词可能会比较自然地在很多文档中反复出现，比如英语中的 “The”、“An”、“But” 等等。这些词大多起到了链接语句的作用，是保持语言连贯不可或缺的部分。然而，如果我们要搜索 “How to Build A Car” 这个关键词，其中的 “How”、“To” 以及 “A” 都极可能在绝大多数的文档中出现，这个时候 TF 就无法帮助我们区分文档的相关度了。

IDF（Inverse Document Frequency）—— “逆文档频率”

就在这样的情况下应运而生。这里面的思路其实很简单，那就是我们需要去 “惩罚”（Penalize）那些出现在太多文档中的单词。

也就是说，真正携带 “相关” 信息的单词仅仅出现在相对比较少，有时候可能是极少数的文档里。这个信息，很容易用 “文档频率” 来计算，也就是，有多少文档涵盖了这个单词。很明显，如果有太多文档都涵盖了某个单词，这个单词也就越不重要，或者说是这个单词就越没有信息量。因此，我们需要对 TF 的值进行修正，而 IDF 的想法是用 DF 的倒数来进行修正。倒数的应用正好表达了这样的思想，DF 值越大越不重要。

TF-IDF 算法主要适用于英文，中文首先要分词，分词后要解决多词一义，以及一词多义问题，这两个问题通过简单的tf-idf方法不能很好的解决。于是就有了后来的词嵌入方法，用向量来表征一个词。

TF-IDF实际上是：TF * IDF

某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

TF-IDF计算方式

最低0.47元/天解锁文章

冰菓(笑)

关注

6
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
TD-IDF

什么是 TF-IDF 算法？简单来说，向量空间模型就是希望把查询关键字和文档都表达成向量，然后利用向量之间的运算来进一步表达向量间的关系。比如，一个比较常用的运算就是计算查询关键字所对应的向量和文档所对应的向量之间的 “相关度”。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gP4gwlKB-1589524736752)(imgs/TF-IDF.png)]TF （Term Frequency）—— “单词频率”意思就是说，我们计算一个查询关键字中某一个单词在目标文档中
复制链接

扫一扫

专栏目录