TF-IDF 算法详解

爱分享的码瑞哥

于 2024-06-15 19:03:40 发布

阅读量676

点赞数 18

文章标签： tf-idf 机器学习深度学习

本文链接：https://blog.csdn.net/power_9/article/details/139706798

版权

TF-IDF 算法详解

TF-IDF（Term Frequency-Inverse Document Frequency）是一种用于文本挖掘和信息检索的统计方法。它旨在评估一个词在文档集中的重要性，常用于关键词提取、文本分类和信息检索等领域。本文将详细介绍 TF-IDF 的基本概念、计算方法及其应用。

TF-IDF 简介

TF-IDF 是一种常用的加权技术，用于评估一个词对于一个文档的重要程度。它结合了词频（TF）和逆文档频率（IDF），在自然语言处理和信息检索中得到了广泛应用。

TF-IDF 的基本概念

1. 词频（TF, Term Frequency）

词频是指某个词在文档中出现的次数。词频的计算方法如下：
[ \text{TF}(t, d) = \frac{\text{词语 } t \text{ 在文档 } d \text{ 中出现的次数}}{\text{文档 } d \text{ 中的总词语数}} ]

2. 逆文档频率（IDF, Inverse Document Frequency）

逆文档频率用于衡量一个词在整个文档集中的普遍程度。它的计算方法如下：
[ \text{IDF}(t, D) = \log \left( \frac{\text{总文档数}}{\text{包含词语 } t \text{ 的文档数}} \right) ]

3. TF-IDF 计算公式

将词频和逆文档频率相结合，可以得到 TF-IDF 值：
[ \text{TF-IDF}(t, d, D) = \text{TF}(t, d) \times \text{IDF}(t, D) ]

其中：

( t ) 是词语
( d ) 是文档
( D ) 是文档集

TF-IDF 的计算方法

以下是计算 TF-IDF 的具体步骤：

计算词频（TF）：对于每个文档，计算每个词的词频。
计算逆文档频率（IDF）：对于文档集中的每个词，计算其逆文档频率。
计算 TF-IDF 值：将词频和逆文档频率相乘，得到每个词在每个文档中的 TF-IDF 值。

示例代码（Python）

下面是使用 Python 计算 TF-IDF 的示例代码：

import math
from sklearn.feature_extraction.text import TfidfVectorizer

# 示例文档集
documents = [
    "The cat is on the mat.",
    "The dog is in the fog.",
    "Cats and dogs are pets."
]

# 计算 TF-IDF
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(documents)

# 输出结果
feature_names = vectorizer.get_feature_names_out()
for doc_index, doc in enumerate(tfidf_matrix):
    print(f"Document {doc_index + 1}:")
    for word_index, tfidf_value in zip(doc.indices, doc.data):
        print(f"  {feature_names[word_index]}: {tfidf_value:.4f}")