推荐阅读:
http://www.minerazzi.com/tutorials/okapi-bm25-model.pdf
http://www.minerazzi.com/tutorials/probabilistic-model-tutorial.pdf
http://www.staff.city.ac.uk/~sb317/papers/foundations_bm25_review.pdf
http://www.tao-sou.com/744.html
https://nlp.stanford.edu/IR-book/html/htmledition/okapi-bm25-a-non-binary-model-1.html
bm25算法全名是Best Match 25,在BM系列中还有其他公式,它一般用作计算当前查询的输入文本与文档的相关度。BM25的一般公式如下:
这篇文章的公式都是取自于推荐阅读里面的论文,本文只是简单翻译一下,公式的符号比较多,看下去的朋友需要耐心。各个符号的定义如下: