TF-IDF词频的表示算法

TF-IDF 算法

TF(归一化后的词频)计算公式:

T F = f r e q ( i , j ) m a x l e n ( j ) TF=\frac{freq(i,j)}{maxlen(j)} TF=maxlen(j)freq(i,j)

f r e q ( i , j ) freq(i,j) freq(i,j)为词 w ( i ) w(i) w(i)在文档 d ( j ) d(j) d(j)中出现频率, m a x l e n ( j ) maxlen(j) maxlen(j) d ( j ) d(j) d(j)长度, d ( i ) d(i) d(i)是文档集合 D D D的一个子集 d ( 1 ) , d ( 2 ) , d ( 3 ) . . . d ( n ) {d(1),d(2),d(3)...d(n)} d(1),d(2),d(3)...d(n)

TF说明一个词在某个文档中出现的次数越高,TF的值会越大
算法应用过程中要利用停用词词典去掉无关的词

I D F IDF IDF是逆文档频率

I D F = l o g ( l e n ( D ) n ( i ) ) IDF=log(\frac{len(D)}{n(i)}) IDF=log(n(i)len(D))

l e n ( D ) len(D) len(D)表示文档集合 D D D中文档的总数, n ( i ) n(i) n(i)表示含有 w ( i ) w(i) w(i)这个词的文档的数量

I D F IDF IDF用来降低通用词的词频
I D F IDF IDF公式说明含有某个词的文档越多,这个词的 I D F IDF IDF会越小

T F − I D F TF-IDF TFIDF

T F − I D F = T F ∗ I D F TF-IDF=TF * IDF TFIDF=TFIDF

T F − I D F TF-IDF TFIDF公式表达来一次词的出现频率,并且在一定程度上降低了某些高频词的影响
利用 T F − I D F TF-IDF TFIDF组成的向量表示一个文档,可以再根据余弦相识度来计算文档之间的相关性

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值