最大边际相关性搜索(Maximal Marginal Relevance Search,MMR) 是一种在信息检索和文本摘要生成中常用的技术,旨在平衡搜索结果的相关性和多样性。该方法通过避免检索结果中的冗余信息,使得返回的结果既与查询高度相关,又在内容上相对多样化,从而提高信息的覆盖度。
核心思想
MMR 的核心思想是最大化与查询的相关性,同时最小化结果之间的相似性,从而在相关性和多样性之间取得平衡。具体而言,每次选择一个新的结果时,MMR 方法不仅考虑该结果与查询的相关性,还考虑其与已选结果的相似性。如果一个候选结果与已选结果非常相似,则倾向于跳过该候选,转而选择一个更具差异性的结果。
MMR 的公式
MMR 的选择过程可以通过以下公式来表示:
MMR ( R ) = arg max D i ∈ Candidates ∖ R [ λ ⋅ Sim ( D i , Q ) − ( 1 − λ ) ⋅ max D j ∈ R Sim ( D i , D j ) ] \text{MMR}(R) = \arg \max_{D_i \in \text{Candidates} \setminus R} \left[ \lambda \cdot \text{Sim}(D_i, Q) - (1 - \lambda) \cdot \max_{D_j \in R} \text{Sim}(D_i, D_j) \right] MMR(R)=arg