通俗解释TF-IDF

TF-IDF是一种衡量词在文档中重要性的方法。它通过词频TF和逆文档频率IDF综合评估,常用于信息检索和文本理解。TF-IDF值高的词对文档主题贡献大,低值词可能是常见词汇。此方法也可用于句表征任务中的词向量加权。
摘要由CSDN通过智能技术生成

TF-IDF

一篇文档中出现的每个词都有其重要性,当我们快速阅读一篇文章的时候,重要的词可以让我们马上理解这篇文章大致和什么相关,举个最经典的例子,如果扫描文章多次遇见“蜜蜂”或者“养殖”,那这两个词对于这篇文章的理解就不可忽视,而不重要的词例如“的”或者“了”,对我们理解文章内容就几乎没有帮助,那么如何衡量每一个词的重要性呢?

首先直接上公式如下
 tf  i d f ( t , d , D ) = t f ( t , d ) ×  idf  ( t , D ) \text { tf } i d f(t, d, D)=t f(t, d) \times \text { idf }(t, D)  tf idf(t,d,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值