No.73
智源社区
强化学习组
强
化
学
习
周刊订阅
《强化学习周刊》已经开启“订阅功能”,扫描下面二维码,进入主页,选择“关注TA”,我们会向您自动推送最新版的《强化学习周刊》。
本期贡献者:(李明,刘青、小胖)
论文推荐
强化学习已经成为人工智能研究领域的热点,其在各个应用领域中取得了瞩目的成就。《强化学习周刊》共分四个板块,论文推荐板块为读者梳理了IJCAI2022会议的11篇强化学习相关研究论文;科研资讯为读者分享来自浙大团队使用模仿放松强化学习分阶段优化高速四足运动;本次招聘版块为大家介绍来自武汉理工大学严新平院士团队招聘博后(强化学习等方向);本次学术报告分享来自俞扬教授的线上讲座:走向开放世界强化学习;本次教程推荐板块为大家分享Tools for Robotic Reinforcement Learning,这个一天的教程指出了这些实际陷阱,并向观众介绍了机器人 RL 的工具,这些工具将帮助机器人专家在模拟和现实世界中成功解决机器人学习任务。
关于IJCAI
国际人工智能联合会议(International Joint Conference on Artificial Intelligence, 简称为IJCAI)是人工智能领域中最主要的学术会议之一,原为单数年召开,自2016年起改为每年召开。本次论文推荐了IJCAI2022会议的11篇论文,涉及领域有安全强化学习、基于策略集成提高泛化和样本效率、信号安全博弈的进化方法、词典式多目标强化学习、自适应交通信号控制、基于搜索的强化学习测试等。
标题:Towards Safe Reinforcement Learning via Constraining Conditional Value-at-Risk(清华大学:Chengyang Ying | 基于约束条件风险值实现安全强化学习)
简介:尽管深度强化学习(DRL)已经取得了实质性的成功,但由于过渡和观察的内在不确定性,它可能会遇到灾难性的失败。大多数现有的安全强化学习方法只能处理过渡扰动或观察扰动,因为这两种扰动影响主体的不同部分;此外,流行的最坏情况回报可能导致政策过于悲观。为此,本文首先从理论上证明了在过渡扰动和观测扰动下的性能退化取决于一个新的值函数范围(VFR)度量,该度量对应于最佳状态和最坏状态之间的值函数差距。在分析的基础上,采用条件风险值(CVaR)作为风险评估,并提出了新的CVaR近端策略优化(CPPO)强化学习算法,通过将CVaR保持在给定阈值之下,将风险敏感的约束优化问题形式化。实验结果表明,CPPO在MuJoCo中的一系列连续控制任务上实现了更高的累积回报,并且对观测和过渡扰动都更鲁棒。
论文:https://arxiv.org/pdf/2206.04436v2.pdf
解读:htt