在sklearn中TF-IDF的默认公式:
在sklearn中tf为由词袋模型得出的矩阵,即词频且不对其进行归一化处理: t f ( d , t ) = n ( d , t ) 即 词 d 在 文 档 t 中 的 数 量 tf_{(d,t)} = n_{(d,t)}\quad 即词d在文档t中的数量 tf(d,t)=n
sklearn中的TF-IDF
最新推荐文章于 2024-06-01 20:54:51 发布
该博客介绍了在sklearn库中如何应用TF-IDF,包括默认的TF计算(词频),IDF公式(考虑了逆文档频率平滑处理),以及最终的TF-IDF向量的L2范数归一化过程。
摘要由CSDN通过智能技术生成