词语在文档中的重要性 -- TF-IDF算法

最新推荐文章于 2020-07-11 16:55:03 发布

烤鱼想睡觉

最新推荐文章于 2020-07-11 16:55:03 发布

阅读量2.6k

点赞数 1

分类专栏：算法数据挖掘文章标签：大数据数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/redaihanyu/article/details/50180367

版权

数据挖掘同时被 2 个专栏收录

18 篇文章 1 订阅

订阅专栏

10 篇文章 1 订阅

订阅专栏

1、对于一个单词来说，文档向量中的一个维度就是该文档中的一个单词，其值就是该词在文档中出现的次数。这称之为TF(Term Frequency)权重。

2、设一个文档中的单词的集合为：WD = {w₁, w₂, w₃ ….. w_n},又设单词集中单词的频率为TF={f₁,f₂, f₃…..f_n}

文档频率DF是有某个单词出现的文档个数，单词在文档中出现的次数并不计入文档频率。那么一个单词的逆文档频率为：IDF_i = 1 / DF_i

因为IDF会很小而使乘积后所得的权重值过小。这种情况下，最好乘以一个常数来归一化IDF值。所以：IDF_i = N / DF_i

3、那么向量中单词w_i的权重W_i= TF_i * IDF_i= TF_i* (N/DF_i)

4、因为IDF_i= N / DF_i会掩盖在最终的单词权重中TF的影响，于是：

W_i = TF_i * IDF_i= TF_i* log(N/DF_i)

5、为了归一化TF，所以TF_i,j=f_i,j/ max(f_k,j)，其中f_i,j是单词w_i在文档j中出现的频数；max(f_k,j) 是单词在文档j中出现的频数最大值；

6、所以：W_i= TF_i * IDF_i= TF_i* log(N/DF_i) = f_i,j/ max(f_k,j) * log(N/DF_i)

烤鱼想睡觉

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
词语在文档中的重要性 -- TF-IDF算法

词语在文档中的重要性 -- TF-IDF算法
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。