TF-IDF算法

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。 用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度                                 ——摘自百度百科


TF:Term Frequency,衡量一个term在文档中出现得有多频繁。

TF(t) =(t在文档中出现的次数)/(文档中的term总数)

 

IDF:Inverse Document Frequency,衡量一个term有多重要。

有些词出现很多,但是没有什么卵用。例如  'is',  'the',  'and'之类。为了平衡,把罕见的词的重要性(weight)提高,把常见词的重要性降低。

IDF(t) = log(文档总数/含有t的文档总数+1)

含有t的文档总数+1:若t不在语料库中,防止分母等于0

 

TF-IDF=TF*IDF

原理:如果词t在一篇文档中出现的频率高,并且在其他文档中很少出现,则认为词t具有很好的区分能力,适合用来把当前文章和其他文章区分开来。

 

NLTK实现TF-IDF:

import nltk
from nltk.text import TextCollection

# 所有的文档放到TextCollection类中
# 这个类会自动进行断句,做统计,做计算
corpus  = TextCollection(['this is my sentence','this is my life','this is the day'])
# 传入两个参数:term, sentence
print(corpus.tf_idf('my','this is my car'))

>>>0.028961793436297456

# 对于每个新句子,遍历计算tf-idf
new_sentence = 'this is sentence four'
standard_vocab =nltk.word_tokenize(new_sentence)

for word in standard_vocab:
    print(corpus.tf_idf(word, new_sentence))

>>>0.0
0.0
0.05231487088895761
0.0

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值