问题1:在包含 N 个文档的语料库中,随机选择一个文档。该文件总共包含 T 个词,词条「数据」出现 K 次。如果词条「数据」出现在文件总数的数量接近三分之一,则 TF(词频)和 IDF(逆文档频率)的乘积的正确值是多少?
A、KT * Log(3)
B、K * Log(3) / T
C、T * Log(3) / K
D、Log(3) / KT
答案:B
解析:TF 的公式是 K/T,IDF 的公式是 log = log(1 / (⅓)) = log (3) 因此正确答案是 Klog(3)/T
文末免费送电子书:七月在线干货组最新 升级的《名企AI面试100题》免费送!
问题2:参阅以下的文档词矩阵 下面哪个文档包含相同数量的词条,并且在整个语料库中其中一个文档的词数量不等同于其他任何文档的最低词数量。
A、d1 和 d4
B、d6 和 d7
C、d2 和 d4
D、d5 和 d6
答案:C
解析:文档 d2 和 d4 包含 4 个词条并且不是词条最低数量 3。
问题3: