精通特征工程（四）特征缩放的效果：从词袋到tf-idf

劫持的程序流

已于 2024-07-06 10:27:16 修改

阅读量497

点赞数 16

文章标签： tf-idf 机器学习

于 2024-07-06 10:08:23 首次发布

本文链接：https://blog.csdn.net/lyy_427/article/details/140224586

版权

#此篇为学习笔记，部分资料、图片来源图灵程序设计丛书《精通特征工程》阿曼达 .卡萨丽、爱丽丝.郑著

在理想情况下，我们需要能强调出有意义的单词的表示方法

tf-idf:词袋的一种简单扩展

tf-idf是在词袋方法基础上的一种简单扩展，它表示词频-逆文档频率

TF（Term Frequency，词频）：是指一个词在特定文档中出现的频率。如果一个词在文档中频繁出现，那么这个词对文档的重要性就高。

IDF（Inverse Document Frequency，逆文档频率）：是用来衡量一个词的普遍重要性。如果一个词在文档集合中很多文档都出现，那么这个词的IDF值会比较低；反之，如果一个词只在少数文档中出现，那么这个词的IDF值会比较高。

举个例子：

假设我们有以下三个文档组成的语料库：

我们的目标是计算每个词在每个文档中的TF-IDF值，以确定哪些词对于每个文档来说是最重要的。

首先，我们计算词频（TF），即一个词在文档中出现的次数与文档中总词数的比例。

接下来，我们计算逆文档频率（IDF），这需要查看一个词在多少个文档中出现过。IDF的公式是： 𝐼𝐷𝐹=log⁡(文档总数包含该词的文档数+1)IDF=log(包含该词的文档数+1文档总数)

最后，我们计算TF-IDF，即TF和IDF的乘积。

文档A中，“狗”的TF-IDF是 (1/7)∗log⁡(32)(1/7)∗log(23)，"人类"、"最好"和"朋友"的TF-IDF会更高，因为它们的IDF更大。
文档B中，“猫”和“鱼”的TF-IDF较高，因为它们的TF较高且IDF不是0。
文档C中，“狗”和“猫”的TF-IDF相对较高，但低于只在该文档中出现的词。

通过这种方式，我们可以看出哪些词对于特定文档更为重要。在这个例子中，“人类”、“最好”、“朋友”、“鱼”和“宠物”等词由于只在一个文档中出现，所以它们的TF-IDF值相对更高，这意味着它们更能代表各自文档的主题。

以上说了那么多，其实tf-idf的直观理解是：tf-idf突出了罕见词，并且有效地忽略了常见词