ICLR2023 元学习论文合集

国际表征学习大会(International Conference on Learning Representations,简称 ICLR)是深度学习领域的顶级会议,关注有关深度学习各个方面的前沿研究,在人工智能、统计和数据科学领域以及机器视觉、语音识别、文本理解等重要应用领域中发布了众多极其有影响力的论文。

AMiner通过AI技术,对 ICLR2023 收录的会议论文进行了分类整理,今日分享的是元学习主题论文,共24篇,我们在这里展示十篇最受欢迎的论文,欢迎下载收藏!

1.Extreme Q-Learning: MaxEnt RL without Entropy 论文详情页
作者:Divyansh Garg,Joey Hejna,Matthieu Geist,Stefano Ermon
AI综述(大模型驱动):我们描述了一种新的在线和 offline超大值学习规则,该规则直接使用极性价值理论(EVT)估计最大值。通过这样做,我们可以避免计算出分布式动作中使用的Q值,这通常是一种很大的错误来源。我们的关键洞察是引入一个目标,它可以直接在最大熵下估计最优软值函数(LogSumExp)。
论文链接:https://www.aminer.cn/pub/63bb859d90e50fcafd06ee06/

2.Sparse Q-Learning: Offline Reinforcement Learning with Implicit Value Regularization 论文详情页
作者:Haoran Xu,Li Jiang,Jianxiong Li,Zhuoran Yang,Zhaoran Wang,Victor Wai Kin Chan,Xianyuan Zhan
AI综述(大模型驱动):在标准数据集上训练聚类算法通常认为,当使用分布式变化进行决策时,会产生一些不确定性。我们提出了一种聚类算法,该算法利用了与CQL相同的值随机化,但使用少量手动注释的示例语料库。与IQL相比,我们发现我们的算法增加了学习价值函数的稀疏性,这使得它比IQL具有更快的收敛速度和更好的一致性。此外,我们还比较了聚类算法的优点和弱点,并将其与其他基线进行了比较。
论文链接:https://www.aminer.cn/pub/63dcdb422c26941cf00b6097/

3.Offline RL for Natural Language Generation with Implicit Language Q Learning 论文详情页
作者:Charlie Snell,Ilya Kostrikov,Yi Su,Mengjiao Yang,Sergey Levine
AI综述(大模型驱动):语言模型的隐性语言Q学习用于自然语言生成。我们提出了一种新的隐性ILQL驱动方法,即隐性数据集Q学习,该方法将传统LR算法与监督学习的优势相结合。我们的方法基于动态规划,使用价值保留主义和隐式数据集支持约束以及学习值函数约束的结合。除了实证验证ILQL外,我们还展示了如何有效地优化高可变奖励函数,如是否标记评论为有毒的话。
论文链接:https://www.aminer.cn/pub/62b52c635aee126c0f459d22/

4.Is Conditional Generative Modeling all you need for Decision Making? 论文详情页
作者:Anurag Ajay,Yilun Du,Abhi Gupta,Joshua B. Tenenbaum,Tommi S. Jaakkola,Pulkit Agrawal
AI综述(大模型驱动): 我们研究了条件生成模型如何直接解决后续决策问题。我们发现我们的假设导致在标准评估中优于现有的纸板方法。通过将政策建模为回报条件生成模型,我们避免了动态规划所需的许多复杂性。此外,我们还展示了作为条件生成模型的优点,考虑了两个因素:约束和技能。训练期间对单个约束或技能进行conditioned会产生行为,在测试时可以达到多个约束一起或展示技能组件的能力。
论文链接:https://www.aminer.cn/pub/63dcdb422c26941cf00b6061/

5.Confidence-Conditioned Value Functions for Offline Reinforcement Learning 论文详情页
作者:Joey Hong,Aviral Kumar,Sergey Levine
AI综述(大模型驱动):我们提出了一种新的贝尔曼信念恢复学习算法,该算法可以同时学习任何风险级的Q值。通过对信心的条件进行约束,我们的价值函数生成可靠的预测值。实验结果表明,我们的算法在多个隐马尔可夫控制领域中都优于现有的冷静无视算法。
论文链接:https://www.aminer.cn/pub/63969ba690e50fcafdcf18c5/

6.Efficient Planning in a Compact Latent Action Space 论文详情页
作者:Zhengyao Jiang,Tianjun Zhang,Michael Janner,Yueying Li,Tim Rocktäschel,Edward Grefenstette,Yuandong Tian
AI综述(大模型驱动):图表压缩算法是一种基于规划的序列建模方法,它扩展到高维。我们提出了图表自动编码规划器(TAP),一种基于规划的对数线性规划器方法,该方法将扩展到了高维,并在高维空间中寻找最优潜在字符串序列。使用一个条件条件向量化变换变换器(VQ-VAE),TAP对当前状态的条件分布进行建模。当作为对数线性的RLagent部署时,TAP避免了步骤两步地进行规划,但通过波束搜索寻找最可能的潜在序列序列,从而保持了对数线的不断增长。我们的实证评估还表明,与不断增长的特征量相比,图表的性能越来越强。
论文链接:https://www.aminer.cn/pub/6304456c90e50fcafd130295/

7.The In-Sample Softmax for Offline Reinforcement Learning 论文详情页
作者:Chenjun Xiao,Han Wang,Yangchen Pan,Adam White,Martha White
AI综述(大模型驱动):我们提出了一种新的监督学习方法,该方法利用了先前收集的数据来提取适当的控制规则。当这些数据被标记为允许时,它们会扩展到需要降低温度的条件下。我们表明,在样本softmax中执行的策略迭代随着气温的增加而增长。
论文链接:https://www.aminer.cn/pub/63dcdb422c26941cf00b60b8/

8.Offline Reinforcement Learning via High-Fidelity Generative Behavior Modeling 论文详情页
作者:Huayu Chen,Cheng Lu,Chengyang Ying,Hang Su,Jun Zhu
AI综述(大模型驱动):在无监督学习中,权重归纳是确保学习的政策与行为政策保持一致的一种常用方法。在这项工作中,我们表明,由于政策模型的分布表达能力有限,以前的方法可能仍然选择看不见的动作,这取决于它们最初的动机。为了解决这个问题,我们采用一种生成性方法,将学到的政策分成两个部分:一个表达式生成性行为模型和一个行动评估模型。关键感知是这种分割避免了以明确指定的约束形式学习决策模型。通过这样做,我们可以利用现有的生成建模技术,如传播基于方法,来模拟不同的行为。作为对策评估,我们将该方法与试点准备技术的相结合,进一步避免从试点操作中选择不可见的动作,并提高计算效率。实验结果表明,我们的方法优于之前有竞争力或更高水平的单向策略。
论文链接:https://www.aminer.cn/pub/63365e7c90e50fcafd1a2dce/

9.In-sample Actor Critic for Offline Reinforcement Learning 论文详情页
作者:Hongchang Zhang,Yixiu Mao,Boyuan Wang,Shuncheng He,Yi Xu,Xiangyang Ji
AI综述(大模型驱动):线性激励学习在局部角色批评中受到了限制。大多数方法惩罚远程执行者或对训练政策进行规则化,但不能保证消除额外推理错误。我们提出了一种利用投票意义分析实施策略评估的IAC。该方法仅使用数据集中的动作目标Q值来评估训练政策,从而避免额外推理错误。提出的方法在许多情况下具有比投票重要性抽取更低的误差率。实验结果表明,与Gym MuJoCo运动和阿特马兹领域最先进的技术相比,IAC获得了竞争性能。
论文链接:https://www.aminer.cn/pub/63dcdb422c26941cf00b64b6/

10.Value Memory Graph: A Graph-Structured World Model for Offline Reinforcement Learning 论文详情页
作者:Deyao Zhu,Li Erran Li,Mohamed Elhoseiny
AI综述(大模型驱动):我们描述了一种基于决策过程的动态图的世界模型。它被称为价值存储图(VMG),它是一个基于马尔可夫决策过程(MDP)的实例框架,其垂直和轴心表示图状态和图动作。当VMG的实时反应空间与原始环境相似且比原始环境小时,我们可以直接应用VMG来估计VMG的图状态值,并给出最佳图动作。VMG被从网页上训练下来,并在 offline RL数据集上进行评估。我们的实验表明,VMG可以在几个任务中优于最先进的 offline RL方法。
论文链接:https://www.aminer.cn/pub/62a2b6915aee126c0f4d6ab6/

想查看全部元学习论文,可以点击这里!!!

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值