1、假定一个由1000万篇文档组成的文档集,某个词w出现在其中的320篇文档中。
在某具体文档T中,出现最多的词出现了15次,那么w出现5次情况下TF-IDF的得分是多少?
Total = 1000W
最多词假设为100% W的相对最高词频为 5/15 = TF
lg(1000w + 1 / 320 + 1)+ 1 = IDF
TF——IDF= TF * IDF
2、假设b=20个行条,r=6即每个行条包含6行。当文档对C1、C2的Jaccard相似度s为0.7时,求C1, C2被输出为候选相似文档对的概率
1
2
3
4
5
6
…
20
**6
行是字符, 列是文件 LSh算法
Jaccard相似度sim(c1, c2) = c1 交 c2/c1 并 c2 = 0.7
P = 1-(1-0.7**6)**20