Openreview IClR2024审稿意见以及如何rebuttal

R1

  1. 为什么直接从其他剧集获取信息可以提高性能,尽管动态可能会有所不同。

  2. 请与其他一些数据增强基线进行比较。

R2 

问题:

  1. 批评者和价值差异d(s,a,s',a')似乎是在IM中共同学习的。为什么这是一个有意义的目标?
  2. 与其他带有类比推理模块的方法相比,该方法的表现如何?
  3. 该方法如何在其他任务上执行?例如,其他 Mujoco 任务,如 Walker2d、Hopper 和 Humanoid 或 Meta-world [4] 任务。

R3

弱点:

方法

我相信缺少对该方法的重要描述。 虽然很清楚如何使用相似性计算网络和差分推理网络,但我没有看到任何关于它们被训练的信息。

我也有疑问为什么会这样。 从本质上讲,为了使该方法起作用,我们需要差分推理网络和相似性计算网络来很好地泛化状态和动作。否则,人为地为批评者设定的目标将具有误导性,并可能损害学习成绩。鉴于我找不到有关这些网络如何训练的信息,我真的怀疑这些网络是否能够快速适应并产生有意义的目标。

实验

鉴于该方法如此简单,并且论文提出了如此大的要求,我希望在更多领域进行评估。例如,既然您已经在 Acrobot 和 Lunar Lander 中评估该方法,为什么不同时评估 Cart Pole 呢?此外,雅达利游戏已被用作DRL方法的标准基准。我强烈建议至少在其中一些中做实验。

实验细节

根本没有关于实验的细节。 至少,需要讨论如何调整超参数以确保公平的比较。 还缺少有关该方法的实现和网络架构的重要细节。

与其他试图提高DRL方法样品效率的方法的比较

由于这种方法的重点是提高DRL方法的采样效率,因此我还希望看到与其他尝试做同样事情的方法进行比较,以了解它的有效性。

问题:

次要:

  1. 错误的引用:在第 5 页的底部,He et al., 2020 不应该被引用为 Adam 优化器,这是由于 Kingma & Ba, 2014 的。

R4 

弱点:

1.这篇论文的中心假设感觉是合理的,实验似乎证实了这一点。但是没有理论证据。本文不足以拆解和验证IM方法的优点,因此建议在实验的消融研究中重点讨论。 2.本文强调对现有大多数RL算法的IM进行了广泛的增强,但相关工作中主流RL算法的最新描述是2018年的SAC。这有点夸大其词,缺乏与最新工作的比较,尤其是解决数据效率的非基于像素的方法。 3.本文介绍的IM会带来额外的计算和存储过载,是否可以进行相关的消融研究来消除这部分干扰。 4.本文强调了求解高维状态空间和大规模问题的优势,但实验部分选择的连续Mujoco任务和离散Gym任务并不能代表上述问题场景。同时,第 6 页的最后一段强调了无模型 RL,这与全文中描述的限制范围不一致。 5.本文的实验缺乏对方法依赖神经网络结构和超参数设置的描述。

问题:

1.本文在第3页的最后一段中强调,早期的工作可能导致“灾难性的学习失败”。这种说法的由来不明,本文也没有通过实验来证明IM解决这一问题的优势。 2.算法1的描述不清晰、不规范,缺乏相关的神经网络。直观地说,IM引入的网络似乎没有更新过程。 3.In 论文第8页的最后一段,对“钟摆”任务的实验结果的描述,直接归因于有限的状态空间,在没有类似实验或证据的情况下,这样的描述是不够的。

参考资料

CVPR 2021评审出炉!得分惨不忍睹,面对奇葩评审该如何反击? - 知乎 (zhihu.com)

Imagination Mechanism:网格信息传播提高强化学习中的数据效率 |打开评论 (openreview.net)

作为审稿人,你什么情况下会选择拒稿?_weak accept-CSDN博客 

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值