MMR(Maximal Marginal Relevance)是一种重新确定文档序值的方法。
具体公式如下:
由上述公式可以看出sim(Q,di)代表的是di的相关性,而sim(di,dj)代表的是di的冗余性;
而MMR的核心,即在权衡这两种性质,即redundancy=cost,relevance=benefit
具体重定序的算法如下:
解释:
为了得到最初的k个文档,可以采用其他比较简单的信息检索方法(IR),如普通法,分段法,追溯法等,这样得到起始的K个文档,即总的文档集;
再从中选择与Query最接近的一篇文档,标记为第一个文档,然后将其从K个文档中去掉,作为有序集合,即R;