达观杯数据竞赛项目--提取TF-IDF特征(Date2)


任务要求:学习TF-IDF理论并实践,使用TF-IDF表示文本

初识TF-IDF

概念

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。

原理

TF表征词汇w在文档d出现的频率;IDF表征词的普遍重要性,它可由总文件数目除以包含该词语的文件数目取对数得到。

一般而言;词的重要性随着它在文本中出现的次数成正比,但也会随着其在语料库中出现的频率成反比,例如词汇 你,我,她,的 等,这类词汇称为停用词。所以说TF-IDF是一种基于bag-of-word的方法。TF-IDF的主要思想就是寻找在该文档中出现频率高但在其他文章中很少出现的词汇,其计算方式为:TF * IDF ,其中TF计算方式为: T F i , j = n i , j ∑ k n k , j TF_{i,j} = \frac {n_{i,j}} {\sum_k n_{k,j}} TFi,j=knk,jni,j

上式中 n i , j n_{i,j} ni,j

  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值