机器学习:TF-IDF算法【词频-逆文本频率=TF×IDF】【用以评估一个词对于一个文档集中的其中一份文档的重要】【词频:词或短语在一篇文章中出现的概率】【逆文本频率:总文档数量/该词出现的文档数量】

TF-IDF是一种统计方法,用于评估词在文档中的重要性。TF-IDF考虑词频(TF)和逆文档频率(IDF)。在文档中高频出现但在语料库中低频的词具有较高的TF-IDF值,适用于搜索引擎、关键词提取、文本相似性和文本摘要。TF-IDF有多种变体,包括对数函数和标准化处理,以改善算法效果。
摘要由CSDN通过智能技术生成

一、什么是TF-IDF

TF-IDF是一种统计方法,用以评估一个词对于一个文件集或一个语料库中的其中一份文件重要程度。可用于关键词提取。

字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。

TF-IDF实际上是:TF * IDF。主要思想是:如果某个词或短语在一篇文章中出现的频率高(即TF高),并且在其他文章中很少出现(即IDF高),则认为此词或者短语具有很好的类别区分能力,适合用来分类。

通俗理解TF-IDF就是:

  • TF刻画了词语t对某篇文档的重要性
  • IDF刻画了词语t对整个文档集的重要性,是对TF的惩罚项;

二、名词解释和数学算法

TF是词频(Term Frequency)表示词条在文本中出现的频率公式
在这里插入图片描述
IDF是逆文档频率(Inverse Document Frequency):某一特定词语的IDF,可以由

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值