机器学习第五篇----TF-IDF算法详解

TF-IDF是一种常用的文本特征表示方法,用于衡量词在文档中的重要性。TF表示词频,IDF则反映了词的稀有程度。本文详细介绍了TF-IDF的计算公式,包括TF、IDF和TF-IDF的定义,并通过信息论角度解释了其数学原理。
摘要由CSDN通过智能技术生成

TF-IDF是Term Frequency - Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。在前期的关键词提取和文本one-hot的时候使用较多

1、TF-IDF 算法
TF(词频):表示词w在文档Di中出现的频率,计算公式如下

在这里插入t图片描述
其中count(w)为关键词w出现的次数,|Di| 为文档Di中所有词的数量。

IDF(逆文档频率):)反映关键词的普遍程度——当一个词越普遍(即有大量文档包含这个词)时,其IDF值越低;反之,则IDF值越高。计算公式如下:
在这里插入图片描述
其中,N为所有的文档总数,I(w,Di)表示文档Di是否包含关键词,若包含则为1,若不包含则为0。若词w在所有文档中均未出现,则IDF公式中的分母为0,因此实践中

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值