论文阅读之二

最新推荐文章于 2024-07-26 08:00:00 发布

爱学习的小玉

最新推荐文章于 2024-07-26 08:00:00 发布

阅读量67

点赞数

分类专栏：论文阅读文章标签：论文阅读机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_69288251/article/details/130199476

版权

论文阅读专栏收录该内容

6 篇文章 0 订阅

订阅专栏

题目：基于策略约束与动作矫正的安全离线强化学习_刘少凡

相关概念

离线强化学习：将已有数据集放入经验回放池，并去掉在线强化学习算法探索与收集策略的过程。

分布漂移：在离线训练时，数据集中状态动作对的分布与训练阶段的策略根据给定状态输出的动作构成的状态动作对的分布之间一般存在差异的现象。

后果：会对值函数做出过高估计。

解决方法：

①批约束学习——对策略进行约束：约束目标策略的（s,a）分布使其接近于数据集中（s，a）的分布

②保守值函数学习——对值函数进行惩罚：将值函数的值作为正则化项加入损失函数

安全强化学习：

将问题定义为受限马尔科夫决策过程，考虑如何在智能体训练阶段降低安全风险，同时保证智能体的性能。置信域策略优化（trust region policy optimization,TRPO）和近端策略优化(proximal policy optimmization,PPO)是常见的连续控制强化学习算法。通过给与的优化目标增加安全约束，并使用拉格朗日法进行求解，可以得到对应的安全强化学习算法。

课程学习（curriculum learning）：agent在一个指导者的监督下进行学习来防止违背安全约束。当agent开始做出危险行为时，它就会激活这个库中的某个重置控制器将agent重置到某个安全状态，以防止agent即将做出的危险行为。

安全评论家：其训练方式与状态动作值函数的训练方式类似，不过其估计出的并非长期的代价，而是当前策略在未来失败或者做出不安全决策的概率。

分层强化学习：

两种实现方式：高级策略从几个低层策略中选择最合适的策略来接管当前策略或为特定的低级策略设置子目标。本文采用的后者，即高级策略的目标是最大化agent所能得到的长期奖励，低级策略的目标是尽可能好的完成高级策略所制定的子目标。

研究痛点：

现有的基于批约束的离线强化学习算法无法在策略提升的同时兼顾分布漂移问题，其中扰动模型依赖于对扰动值的权重超参数的调节来控制算法在策略提升与缓解分布漂移问题之间的平衡。

解决方法：基于条件生成式对抗网络的批约束学习，在策略提升的同时约束智能体的决策服从于数据集的分布来环节分布漂移问题。

爱学习的小玉

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
论文阅读之二

题目：基于策略约束与动作矫正的安全离线强化学习_刘少凡。
复制链接

扫一扫

专栏目录

爱学习的小玉 CSDN认证博客专家 CSDN认证企业博客

码龄2年

7: 原创

164万+: 周排名

206万+: 总排名

1725: 访问

: 等级

71: 积分

2: 粉丝

1: 获赞

2: 评论

12: 收藏

私信

关注

热门文章

分类专栏

论文阅读 6篇

最新评论

420论文阅读（一）
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读（三）
CSDN-Ada助手: 恭喜您又完成了一篇博客，文章内容非常有深度，对于论文阅读的方法和技巧进行了详细的阐述。接下来，建议您可以尝试分享自己的阅读心得和体会，或者分享一些实用的学术工具和资源，这样不仅可以增加读者的阅读体验，也能够让更多的读者受益。期待您的下一篇创作！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
论文阅读之二
CSDN-Ada助手: 非常感谢您的分享，您的博客阅读之二对于我们这些研究人员来说非常有启发性。恭喜您持续创作，我期待着你的下一篇博客。如果可以的话，我建议您可以谈谈您的阅读方法和技巧，这将对我们更好地理解和应用您的经验有所帮助。再次感谢您的分享。 CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
论文阅读（一）
CSDN-Ada助手: 非常感谢您分享这篇博客，阅读论文是我们学习和研究的重要一步，您的经验和心得分享对我们非常有帮助。除了题目中提到的模型预测控制，我认为对于论文阅读还有一些扩展的知识和技能，例如如何查找和筛选合适的文献、如何进行文献综述和分析、如何评价和批判性思考论文等等。希望您能继续分享您的学习和研究经验，期待您的下一篇博客。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。