TF-IDF

TF-IDF是一种衡量词在文档中重要性的统计方法,用于信息检索和文本挖掘。TF表示词频,IDF表示逆文档频率。TF-IDF值越高,表明该词对文档越重要。例如,文档中'cat'的TF为0.03,IDF为4,最终TF-IDF权重为0.12。
摘要由CSDN通过智能技术生成

1.TF-IDF是什么?

TF-IDF :term frequency-inverse document frequency

1.tf-idf 作为一种权重经常被用作信息检索和文本挖掘领域

2.这样一种权重时通过统计计算得出的。来衡量 在一个语料库或者文本集中, 一个term 或者 word对于一个文档的重要性。(比如,有k个文档,其中一个文档d种有一个词w,衡量 w对于k中的d的重要性)

3.直观上看,tf-idf的大小与word在文档中出现频率成正比,与在语料中出现的频率成反比

4.可以用来表达一个文档,比如有k个文档,这个语料库共V个word,那么每一篇文档就由一个V维向量表达,每一维时对应word的tf-idf值。sklearn已有中有具体实现。

2.如何计算TF-IDF

  • TF: Term Frequency :衡量一个word在文档中出现的频率,除以 文档长度可以看成是一种normalization。

    TF(t) = (Number of times term t appears in a document) / (Total number of terms in the document)

  • IDF: Inverse Document Frequency :衡量一个word对于一个文档的重要性。在计算TF的时候,所有的词是一样重要的,显然不够精确,比如‘is’‘a’之类的词T

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值