本文是对IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models论文阅读的笔记,以便日后查看。
该篇论文基于生成对抗网络的框架,对其中的生成模型进行改进,从有标签或无标签样本中选择最难区分的样本,给判别模型进行判定,达到动态调整输入的数据,同时两个模型可以互相促进提升的效果。该模型是主要基于信息检索的研究,即给定查询返回文档的过程。
传统的信息检索分为两种方式,生成模型与判别模型。生成模型即给定查询生成文档,而判别模型将文档与查询看做特征,生成rank,典型的如learning to rank。然而,生成模型无法利用如点击率或排名这种信息,判别模型缺乏利用特征的能力,同时无法利用无标签样本。因此该论文提出了基于生成对抗网络的信息检索框架。
训练样本由小部分query相关的具有标签的样本和大量无标签或具有与query较小相关度的标签构成。生成器从样本池中选择与query尽可能相关的文档,而生成器要辨别这些真的相关的与看上去相关其实不相关的文档。优化目标如下所示。
其中ptrue为实际相关的样本。判别器是一个分类模型。其中f函数为衡量查询与对应文档的相关度函数.
生成器目标函数如下
由于生成器的选择的文档是样本池中离散的样本,不能采用梯度下降算法,因此采用策略梯度下降算法,将判别器中的f函数的输出作为奖励。如下所示
为了让采样样本可以获得的奖励有正有负,在生成器中添加了一项baseline,用奖励的期望值作为baseline,将奖励修改如下。
该论文将算法与传统的生成对抗网络与噪音对比模型进行对比。
与生成对抗网络对比:1、该算法生成的样本是从候选样本中选择的,可以是无标签样本,而传统的生成样本是从随机噪声信号生成的;2、使用了策略梯度下降算法;3、生成的样本的有限的且是离散的空间。
该算法也与噪音对比模型进行了对比。噪音对比模型从一个分布中构造样本,如高斯分布等,与未知分布的样本进行区分,以学习未知分布的样本的分布。自身对比模型从自己的模型采样负样本构造对比样本。该模型结合了这两种模型。
论文将该算法用于web搜索、物品推荐、问答等场景中,在不同场景下该算法有不同的表现,具体可以详见论文实验结果。
读完该论文,给我印象最深的是其生成模型的方式,可以从无标签样本中选择有效地对抗样本,达到动态选择数据训练模型的数据的效果,该方法可以用于半监督学习中。