走向开放世界强化学习、IJCAI2022论文精选、机器人 RL 工具、强化学习招聘、《强化学习周刊》第73期...

本文梳理了IJCAI2022会议的强化学习相关论文,涉及安全强化学习、样本效率提升、多目标强化学习等领域。推荐的论文包括基于约束条件风险值的强化学习、策略集成提高泛化和样本效率、对比好奇驱动学习框架等,为强化学习在机器人、自动驾驶等领域的应用提供新思路。
摘要由CSDN通过智能技术生成

No.73

智源社区

强化学习组

 习

be7caa03e072c774ef30b47cb5f2a2d7.png

周刊订阅

《强化学习周刊》已经开启“订阅功能”,扫描下面二维码,进入主页,选择“关注TA”,我们会向您自动推送最新版的《强化学习周刊》。

5b2a58e15459faefcbb0915a6016b8f7.png

本期贡献者:(李明,刘青、小胖)

527f9d3648b72eca3d1ce74dea8d117c.jpeg

64a7a01e17c55d475730fd9df9093a48.jpeg

e82dadfc5c445f1b81a1e89f19855fc3.jpeg

4aa350a6417dbe66428d386da93ff1de.jpeg

1baf07e1d8075b8b78a9eef158365825.jpeg

论文推荐

强化学习已经成为人工智能研究领域的热点,其在各个应用领域中取得了瞩目的成就。《强化学习周刊》共分四个板块,论文推荐板块为读者梳理了IJCAI2022会议的11篇强化学习相关研究论文;科研资讯为读者分享来自浙大团队使用模仿放松强化学习分阶段优化高速四足运动;本次招聘版块为大家介绍来自武汉理工大学严新平院士团队招聘博后(强化学习等方向);本次学术报告分享来自俞扬教授的线上讲座:走向开放世界强化学习;本次教程推荐板块为大家分享Tools for Robotic Reinforcement Learning,这个一天的教程指出了这些实际陷阱,并向观众介绍了机器人 RL 的工具,这些工具将帮助机器人专家在模拟和现实世界中成功解决机器人学习任务。

关于IJCAI

国际人工智能联合会议(International Joint Conference on Artificial Intelligence, 简称为IJCAI)是人工智能领域中最主要的学术会议之一,原为单数年召开,自2016年起改为每年召开。本次论文推荐了IJCAI2022会议的11篇论文,涉及领域有安全强化学习、基于策略集成提高泛化和样本效率、信号安全博弈的进化方法、词典式多目标强化学习、自适应交通信号控制、基于搜索的强化学习测试等。

标题:Towards Safe Reinforcement Learning via Constraining Conditional Value-at-Risk(清华大学:Chengyang Ying | 基于约束条件风险值实现安全强化学习)

简介:尽管深度强化学习(DRL)已经取得了实质性的成功,但由于过渡和观察的内在不确定性,它可能会遇到灾难性的失败。大多数现有的安全强化学习方法只能处理过渡扰动或观察扰动,因为这两种扰动影响主体的不同部分;此外,流行的最坏情况回报可能导致政策过于悲观。为此,本文首先从理论上证明了在过渡扰动和观测扰动下的性能退化取决于一个新的值函数范围(VFR)度量,该度量对应于最佳状态和最坏状态之间的值函数差距。在分析的基础上,采用条件风险值(CVaR)作为风险评估,并提出了新的CVaR近端策略优化(CPPO)强化学习算法,通过将CVaR保持在给定阈值之下,将风险敏感的约束优化问题形式化。实验结果表明,CPPO在MuJoCo中的一系列连续控制任务上实现了更高的累积回报,并且对观测和过渡扰动都更鲁棒。

论文:https://arxiv.org/pdf/2206.04436v2.pdf

解读:htt

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值