TF-IDF算法

magic-hl

已于 2024-07-23 15:12:06 修改

阅读量900

点赞数 3

文章标签： tf-idf

于 2024-03-27 16:43:31 首次发布

本文链接：https://blog.csdn.net/2301_79012932/article/details/137081560

版权

TF-IDF（词频-逆文档频率）

是一种用于衡量文本中词语重要性的方法，特别适用于信息检索和文本挖掘任务。下面我将深入讲解TF-IDF的计算过程，以便更好地理解。

TF-IDF的计算过程可以分为两个主要部分：词频（TF）和逆文档频率（IDF）。

1. 词频（TF - Term Frequency）：

词频是指某个词语在文档中出现的频率。TF表示了一个词语在文档中的重要性，通常通过以下公式计算：

$\text{TF}(t, d) = \frac{n_{t,d}}{\sum_{t' \in d} n_{t',d}}$

其中 $n_{t,d}$ 表示词语 t 在文档 d 中出现的次数， $\sum_{t' \in d} n_{t',d}$ 表示文档 d 中所有词语的出现次数之和。

2. 逆文档频率（IDF - Inverse Document Frequency）：

逆文档频率度量了一个词语在整个文档集合中的重要性。IDF值越大，表示词语在整个文档集合中越不常见，因此在文档中的重要性越高。（就是说物以稀为贵）IDF通常通过以下公式计算：

$\text{IDF}(t) = \log \left( \frac{N}{\text{DF}(t)+1} \right)$

其中 N 表示文档集合中的文档总数， $\text{DF}(t) +1$ 表示包含词语 t 的文档数量。（加1防止分母为0）

3. TF-IDF的计算：

TF-IDF的计算是将词频（TF）和逆文档频率（IDF）相结合，以确定词语在文档中的整体重要性。计算公式如下：

$\text{TF-IDF}(t, d) = \text{TF}(t, d) \times \text{IDF}(t)$

TF-IDF 的计算结果是一个词语在文档中的重要性的加权值，该值既考虑了词语在文档中的频率，又考虑了词语在整个文档集合中的重要程度。通常情况下，TF-IDF 值越大，表示词语在文档中的重要性越高。

思考：为什么要用log函数来表示？括号里面是大于1的。然后当文档有100000本，但是出现了一个罕见字，那么不加log的话，它的数值会非常大。所以log会将数值变小。

代码

from sklearn.feature_extraction.text import TfidfVectorizer

def test():
    vectorizer = TfidfVectorizer()
    corpus = ['This is the first document.', 'This is the second second document.', 'And the third one.', 'Is this the first document?']
    X = vectorizer.fit(corpus)
    vectors = vectorizer.transform(corpus)
    
    '''
    稀疏矩阵的存储
    (0, 8)        0.4387767428592343
    (0, 6)        0.35872873824808993
    (0, 3)        0.4387767428592343
    (0, 2)        0.5419765697264572
    (0, 1)        0.4387767428592343
    (1, 8)        0.2723014675233404
    (1, 6)        0.22262429232510395
  '''
    
    print(vectors)
    
    '''
    表示四个文档，9个单词的矩阵

    (4, 9)
    '''
    print(vectors.shape)
    
    '''
    [[0.         0.43877674 0.54197657 0.43877674 0.         0.
  0.35872874 0.         0.43877674]
 [0.         0.27230147 0.         0.27230147 0.         0.85322574
  0.22262429 0.         0.27230147]
 [0.55280532 0.         0.         0.         0.55280532 0.
  0.28847675 0.55280532 0.        ]
 [0.         0.43877674 0.54197657 0.43877674 0.         0.
  0.35872874 0.         0.43877674]]
  '''
    
    print(vectors.toarray())
    
    
    '''
    ['and' 'document' 'first' 'is' 'one' 'second' 'the' 'third' 'this']
    '''
    print(vectorizer.get_feature_names_out())
    
    
if __name__ == '__main__':
    test()