算法----TF-IDF(加权)

TF-IDF是一种信息检索和数据挖掘的加权技术,用于挖掘文章关键词。TF表示词频,IDF表示逆文档频率。算法步骤包括计算词频、逆文档频率和TF-IDF值,关键词选取通常是TF-IDF值最高的词语。实例展示了如何在文本数据中应用TF-IDF。
摘要由CSDN通过智能技术生成

TF-IDF有两层意思,一层是"词频"(Term Frequency,缩写为TF),另一层是"逆文档频率"(Inverse Document Frequency,缩写为IDF)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词

TF=(某词在文档中出现的次数/文档的总词量)

IDF=loge(文档总数/包含该词的文档数+1)

一、TF-IDF算法步骤

算法过程:先计算出文档中每个词的TF-IDF值,然后按降序排列,取排在最前面的几个词作为关键词进行输出。

1. 计算词频:

2. 计算逆文档频率:

(包含某词语的文档越少,IDF值越大,说明该词语具有很强的区分能力)

3.TF-IDF值(权重&#

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值