2021-10-21
1、假定一个由1000万篇文档组成的文档集,某个词w出现在其中的320篇文档中。
在某具体文档T中,出现最多的词出现了15次,那么w出现5次情况下TF-IDF的得分是多少?
Total = 1000W
最多词假设为100% W的相对最高词频为 5/15 = TF
lg(1000w + 1 / 320 + 1)+ 1 = IDF
TF——IDF= TF * IDF
2、假设b=20个行条,r=6即每个行条包含6行。当文档对C1、C2的Jaccard相似度s为0.7时,求C1, C2被输出为候选相似文档对的概率
原创
2021-10-21 21:29:48 ·
186 阅读 ·
0 评论