TF-IDF基本概念以及例题

本文详细介绍了TF-IDF的概念,包括词频(TF)和逆文档频率(IDF)的计算,以及如何结合两者得出TF-IDF值。通过实例展示了如何在多个文档中计算特定词汇的TF-IDF权重,进一步解释了TF-IDF在文本关键词提取和相关性判断中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

TF-IDF基本概念

作用:提取文本关键词;计算查询内容与不同文本的相关程度等。

TF(Term Frequency):词频。也就是,如果一个词很重要,它应该在这篇文章中多次出现。

IDF(Inverse Document Frequency):逆文档频率。说人话,也就是出现频率高的词可能是一些过于常用的词,例如“的”,“是”,“我”,如果仅仅根据TF来作为衡量指标,那么结果会没有意义,所以我们需要设定IDF这个指标,它的大小与一个词的常见程度成反比。

TF-IDF:词频(TF)和逆文档频率(IDF)两个值相乘,得到了一个词的TF-IDF值。某个词对文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的几个词,就是这篇文章的关键词。

计算公式

  • 词频(TF) = 某个词在文章中的出现次数
  • 逆文档频率(IDF) = log10(语料库的文档总数/包含该词的文档总数)
  • TF-IDF = 词频(TF) * 逆文档频率(IDF)

例题

根据路透社的806791份文档中“car”、“auto”、“insurance”和“best”这四个单词的频次,

termdf
car18165
auto6723
insurance19241
best25235

以及下表中这四个词在Doc1、Doc2和Doc3这3个文档的频次。

tfDoc1Doc2Doc3
car27424
auto3330
insurance03329
best14017

计算关于这四个单词的三个文件的TF-IDF的值以及TF-IDF的权重向量。


Step 1.

计算四个单词的idf值,如下表:

termdfidf
car18165log10(806791/18165)=1.65
auto6723log10(806791/6723)=2.08
insurance19241log10(806791/19241)=1.62
best25235log10(806791/25235)=1.50

Step 2.

计算四个单词在三个文档中的tf-idf值,如下表:

tf-idfDoc1Doc2Doc3
car27*1.65=44.554*1.65=6.624*1.65=39.6
auto3*2.08=6.2433*2.08=68.640
insurance033*1.62=53.4629*1.62=46.98
best14*1.50=21017*1.50=25.5

Step 3.

根据上表的内容,得到TF-IDF的权重向量:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值