Constrained Policy Optimization——UC Berkeley

最新推荐文章于 2024-05-06 21:40:14 发布

rockray21

最新推荐文章于 2024-05-06 21:40:14 发布

阅读量1.8k

点赞数

分类专栏：强化学习文章标签：人工智能

本文为博主原创文章，转载请声明作者rockray21。如有问题，欢迎指正。

本文链接：https://blog.csdn.net/rockray21/article/details/111308840

版权

如有错误，欢迎指正
本文翻译为机翻，仅作初步了解学习使用，需要用到的时候再回来整理。
如有侵权，请私信本人。

约束型策略优化算法

Joshua Achiam（UC Berkeley）
原为链接:https://arxiv.org/pdf/1705.10528.pdf
参考链接:https://www.sohu.com/a/155588306_465975
源码:https://github.com/jachiam/cpo

我们的方法——约束型策略优化（Constrained Policy Optimization——CPO），可以确保智能体在学习过程中的每一步都满足约束条件。具体来说，我们尝试满足成本方面的约束：设计者会给智能体应该避免的每一个结果都分配一个成本（cost）和一个限制（limit），而且智能体则会学着去使它的所有成本都保持在限制之下。

为什么我们需要安全性约束？

强化学习智能体的训练目标是最大化奖励信号，人类必须事先指定设计这一过程的范围。如果奖励信号没有被正确设计，智能体就会去学习非计划中的甚至是有害的行为。如果设计奖励函数很容易，这将不是问题，但不幸的是从根本上来讲，奖励函数设计很有挑战性；这就是采

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Constrained Policy Optimization——UC Berkeley

如有错误，欢迎指正本文翻译为机翻，仅作初步了解学习使用，需要用到的时候再回来整理。如有侵权，请私信本人。约束型策略优化算法Joshua Achiam（UC Berkeley）原为链接:https://arxiv.org/pdf/1705.10528.pdf参考链接:https://www.sohu.com/a/155588306_465975我们的方法——约束型策略优化（Constrained Policy Optimization——CPO），可以确保智能体在学习过程中的每一步都满足约束条件
复制链接

扫一扫

专栏目录

rockray21 CSDN认证博客专家 CSDN认证企业博客

码龄6年

20: 原创

18万+: 周排名

132万+: 总排名

4万+: 访问

: 等级

306: 积分

25: 粉丝

50: 获赞

13: 评论

297: 收藏

私信

关注

热门文章

分类专栏

深度学习 1篇
强化学习 11篇
技术 1篇
姿态检测 2篇
学术 3篇

最新评论

MADRL（多智能体深度强化学习）
Knight8520: 会有，建议看看联邦学习可以解决
MADRL（多智能体深度强化学习）
lianbangcainiao: 中心化训练会不会出现数据隐私泄露的问题啊
T-LESS: An RGB-D Dataset for 6D Pose Estimation of Texture-less Objects
baojunchencc: 这个数据集可以用于做目标识别吗？
python实现socket互传json文件
weixin_50471167: 这注释还不清楚？看不懂说明自己技术还不够理解这个。了解了socket和json基本都能看懂吧，这两者又不难理解
AAAI 2020多智能体强化论文
ctotalk: 学习了。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。