全文匹配采用TF-IDF BM25算法对文档进行打分计算。
详细可以参考文章文本相似度(tf-idf 和 bm25的算法讲解)_#叫啥名字呢的博客-CSDN博客_bm25和tfidf区别
这里简单扒拉一下公式
N为文档数,为包含了q的文档数,则
单词与文档的相关性TF
其中hit为单词在该文档中出现的次数,word为该文档的单词数
总分数
全文匹配采用TF-IDF BM25算法对文档进行打分计算。
详细可以参考文章文本相似度(tf-idf 和 bm25的算法讲解)_#叫啥名字呢的博客-CSDN博客_bm25和tfidf区别
这里简单扒拉一下公式
N为文档数,为包含了q的文档数,则
单词与文档的相关性TF
其中hit为单词在该文档中出现的次数,word为该文档的单词数
总分数