摘要:
本文统一介绍了信息检索建模中的两种思想流派:生成检索侧重于预测给定查询的相关文档,而判别检索侧重于预测给定查询-文档对的相关性。我们提出了一个博弈论的极大极小博弈来迭代优化这两个模型。一方面,判别模型旨在从标记和未标记数据中挖掘信号,为训练生成模型以拟合给定查询的文档的潜在相关性分布提供指导。另一方面,生成模型充当当前判别模型的攻击者,通过最小化其判别目标,以对抗的方式为判别模型生成困难的示例。通过这两种模型之间的竞争,我们证明了统一框架利用了两种思维方式:(i)生成模型通过来自判别模型的信号学习拟合文档的相关性分布,(ii)判别模型能够利用生成模型选择的未标记数据来实现更好的文档排序估计。我们的实验结果表明,在这种情况下,性能显著提高,高达23.96%Precision@5在包括网络搜索、项目推荐和问答在内的各种应用程序中,超过强大基线的MAP占15.50%。