关于IRGAN的记录

       本文是对IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models论文阅读的笔记,以便日后查看。

       该篇论文基于生成对抗网络的框架,对其中的生成模型进行改进,从有标签或无标签样本中选择最难区分的样本,给判别模型进行判定,达到动态调整输入的数据,同时两个模型可以互相促进提升的效果。该模型是主要基于信息检索的研究,即给定查询返回文档的过程。

       传统的信息检索分为两种方式,生成模型与判别模型。生成模型即给定查询生成文档,而判别模型将文档与查询看做特征,生成rank,典型的如learning to rank。然而,生成模型无法利用如点击率或排名这种信息,判别模型缺乏利用特征的能力,同时无法利用无标签样本。因此该论文提出了基于生成对抗网络的信息检索框架。

       训练样本由小部分query相关的具有标签的样本和大量无标签或具有与query较小相关度的标签构成。生成器从样本池中选择与query尽可能相关的文档,而生成器要辨别这些真的相关的与看上去相关其实不相关的文档。优化目标如下所示。

       其中ptrue为实际相关的样本。判别器是一个分类模型。其中f函数为衡量查询与对应文档的相关度函数.

       生成器目标函数如下

       由于生成器的选择的文档是样本池中离散的样本,不能采用梯度下降算法,因此采用策略梯度下降算法,将判别器中的f函数的输出作为奖励。如下所示

       为了让采样样本可以获得的奖励有正有负,在生成器中添加了一项baseline,用奖励的期望值作为baseline,将奖励修改如下。

       该论文将算法与传统的生成对抗网络与噪音对比模型进行对比。

       与生成对抗网络对比:1、该算法生成的样本是从候选样本中选择的,可以是无标签样本,而传统的生成样本是从随机噪声信号生成的;2、使用了策略梯度下降算法;3、生成的样本的有限的且是离散的空间。

       该算法也与噪音对比模型进行了对比。噪音对比模型从一个分布中构造样本,如高斯分布等,与未知分布的样本进行区分,以学习未知分布的样本的分布。自身对比模型从自己的模型采样负样本构造对比样本。该模型结合了这两种模型。

       论文将该算法用于web搜索、物品推荐、问答等场景中,在不同场景下该算法有不同的表现,具体可以详见论文实验结果。

       读完该论文,给我印象最深的是其生成模型的方式,可以从无标签样本中选择有效地对抗样本,达到动态选择数据训练模型的数据的效果,该方法可以用于半监督学习中。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值