2021-10-21

1、假定一个由1000万篇文档组成的文档集,某个词w出现在其中的320篇文档中。
在某具体文档T中,出现最多的词出现了15次,那么w出现5次情况下TF-IDF的得分是多少?

Total = 1000W
最多词假设为100% W的相对最高词频为 5/15 = TF
lg(1000w + 1 / 320 + 1)+ 1 = IDF
TF——IDF= TF * IDF

2、假设b=20个行条,r=6即每个行条包含6行。当文档对C1、C2的Jaccard相似度s为0.7时,求C1, C2被输出为候选相似文档对的概率
1
2
3
4
5
6

20
**6

行是字符, 列是文件 LSh算法

Jaccard相似度sim(c1, c2) = c1 交 c2/c1 并 c2 = 0.7
P = 1-(1-0.7**6)**20

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值