TFIDF

最新推荐文章于 2022-03-28 19:52:54 发布

@dream

最新推荐文章于 2022-03-28 19:52:54 发布

阅读量589

点赞数 1

分类专栏：算法文章标签： TFIDF 算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/duan12910/article/details/100830128

版权

算法专栏收录该内容

7 篇文章

订阅专栏

目录

1.TFIDF算法原理
2. TFIDF 概率模型解释
3. TFIDF python 实战

1.TFIDF算法原理

TFIDF (term frequency - inverse document frequency)
主要思想：如果某个词或者短语在一篇文章中出现的频率TF较高，而且在其他文章中出现的频率较少，则认为此词或短语具有很好的类别区分能力。

计算公式：
有语料库 $D$ ，文章表示为 $d$ ，文章中的词或者短语表示为 $w$ 。
TF(term frequency，词频):
$TF_{w, d_i} = \frac{count(w)} {\sum\limits_{t \in d_i} count(t)}$

$c o u n t (w)$ 为关键词 $w$ 出现的次数。

IDF(inverse document frequency, 逆文档频率):
$IDF_{w, D} = log \frac{|D|} {1 + \sum\limits_{i = 1}^{|D|} I(w, d_i) }$
$∣ D ∣$ 表示语料库 $D$ 中文章的数量， $I(w, d_i)$ 为指示函数，表示词或者短语 $w$ 是否在文章 $d_i$ 中出现，出现为1，否则为0。
若词或者短语 $w$ 未在语料库中出现过，我们需要对 $I D F$ 进行平滑(smooth)操作。

$TFIDF_{w, d_i} = TF_{w, d_i} * IDF_{w, D}$

一些结论：

当一个词在文章频率越高并且新鲜度高（即普遍度低），其TF-IDF值越高。
TF-IDF兼顾词频与新鲜度，过滤一些常见词，保留能提供更多信息的重要词。

2. TFIDF 概率模型解释

参考网页

3. TFIDF python 实战

参考网页

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。