强化学习——day41联系通讯作者和读论文:AAAI-2021:Self-Supervised Attention-Aware Reinforcement Learning

如何联系通讯作者

这篇论文找起来是真的费工夫,首先是从Web Of Science 上找到一个感兴趣的点搜到了这篇论文,再加上是顶会AAAI的投稿文章,正准备读呢,发现没有它的下载链接,doi号也没有,最后想到了联系通讯作者:在这里插入图片描述
浅用了一下别人的专业和学校,需要注意的是为什么不用Dr 而用 Professor 是因为不确定他的学位,如果有博士学位的话建议用Dr。
最后他发给你论文后,应该表示感谢在这里插入图片描述

  • 最后还有一点,发邮件最好别用qq邮箱,或者用qq邮箱英文版,以自己的英文名字来当邮箱号的那种,因为很多国外老师不喜欢那些意义不明的数字序列,这对他们来说不太能理解。

资源下载

点击下载原文PDF

chap1 Self-Supervised Attention for Reinforcement Learning

1.1 Method: Self-Supervised Attention Module

本文设计了一个自我监督的注意模块,该模块可以识别感兴趣的显着区域,而无需明确的手工标记注释。在现有的以CNNs为特征提取器的深度RL方法中,可以直接即插即用。
注意模块学习的是前景注意掩码,而不是预定义的关键点数量。如图一:在这里插入图片描述

  • 从 Xs、Xt 中提取前景区域(感兴趣的区域)的特征,掩码生成器将输入图像的前景注意掩码输出为Ψ(xs)和Ψ(xt)。
  • 1-Ψ(xs)作为源图像的背景区域。解码器利用目标图像的前景特征和源图像的背景特征来重建目标图像。
  1. 用于重建xt的特征计算如下:式(1)在这里插入图片描述

  2. 自我监督注意面具训练的总体损失:式(2)在这里插入图片描述

1.2 Attention-Aware Reinforcement Learning

注意力意识的强化学习。图2演示了所提出的自监督注意模块:在这里插入图片描述

  1. 蓝色阴影区域显示了使用CNN的原始深RL管道。
  2. 注意模块在底部的灰色区域突出显示,可以作为任何深RL方法的plug
  3. 此外,掩码生成器输出当前框架的注意掩码

chap2 Experiments

源代码地址:https://github.com/happywu/Self-Sup-Attention-RL

2.1 Single-task Learning

单任务学习。在有/没有我们的自我监督注意面具的A2C学习过程中,平均(超过5个随机种子)测试分数。本文的方法在收敛速度和测试分数上始终优于基线A2C方法,如图3所示:在这里插入图片描述

Comparison with Top-Down Attention

自上而下的注意力只被最终的目标所引导。因此,它的质量和意义高度依赖于特定任务的RL目标。自我监督注意意识RL代理比自上而下注意引导RL和基线表现更好。如图5所示:在这里插入图片描述

2.2 Multi-task Learning

使用随机策略,在从三种不同游戏(小行星、攻击、帕克曼女士)联合收集的帧上训练自我监督掩模模块,从三个游戏中随机抽取图像对(xs,xt),并使用Latten训练网络,图6:在这里插入图片描述

与使用在一个游戏中专门训练的自我监督注意模块相比,实现了几乎相同的性能,展示了自监督注意模块的泛化能力

2.3 Transfer Learning

设计了一个管道,该管道显示学习的注意力掩码可以推广到训练中从未见过的相关场景,图7:在这里插入图片描述

chap3 Bottom-up Object Extraction

在本节中,我们将展示有关使用自我监督的注意模块提取对象关键点的初步结果,从而有可能促进以对象为中心的RL。
在三款不同游戏上与Transporter比较召回率和精确度

在这里插入图片描述
在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值