TF-IDF

tf-idf 是一个NLP任务中常用的工具。

其主要思想是,在一个语料库中的一篇文章里的某一个词。

它越是在语料库出现的次数少而在该文章中出现的次数多,我们就可以认为这个词对于文章来说,很重要。

那么TF代表的意思是“词频”:某个词在文章中出现次数/文章总词数
同样IDF代表的意思是“逆文档频率”:IDF = log(语料库的文档总数/包含该词的文档总数+1)

一般TF-IDF越大,则代表这个词越重要,它的排位越靠前。

TF-idf 算法简单而强大,它最大的问题是,只是从词频的角度考量词的重要性。
如果一个词的词频比较低,但它代表着重要的意思,很可能会被排到更后面的位置。如此,效果不会很好。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值