强化学习与多智能体强化学习（四）——on-policy和off-policy

最新推荐文章于 2024-05-28 12:19:40 发布

酸酸甜甜我最爱

最新推荐文章于 2024-05-28 12:19:40 发布

阅读量71

点赞数

分类专栏：基础理论学习文章标签：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Fearless_Sun/article/details/135035191

版权

基础理论学习专栏收录该内容

20 篇文章 2 订阅

订阅专栏

一、定义

on-policy：要learn的agent和与环境互动的agent是同一个agent（一边学一边互动）。

off-policy：要learn的agent和与环境互动的agent不是同一个agent（在旁边看着别人互动）。

二、过程

和是不能相差太多的，否则训练结果就不好，所以该怎么选择？PPO/TRPO

在实际使用中，虽然PPO和TRPO（PPO的前身）效果相差不大，但PPO使用起来更为简易，一般推荐使用PPO算法。KL divergence 当作一个function，表示的不是和的参数距离，而是它们behavior上的距离。假设现在有两个actor，一个参数是，一个参数是。所谓参数上的距离是指算这两个参数有多像；而behavior上的距离是指给同样state的时候，output的action distribution之间的差距。之所以不考虑参数的距离而是考虑行为上的距离，是很有可能对actor来说，参数的变化和action的变化不一定是完全一致的，可能参数变很多，action变化不大。

PPO算法：

如果觉得计算KL很麻烦，那还有简易版本的PPO算法：

PPO2算法是选择括号里两项中小的一项。

第二项中有个clip function，我的理解是做边界处理的，假设为0.2，则当的计算结果小于0.8时，就当作0.8，当的计算结果大于1.2时，就当作1.2。

第一项就是绿色那条线。如果A>0，那么取两条线的较小的那条线为下面红色那条线。

反正，如果A<0的话，那么取两条线的较小的那条线为下面红色那条线。

对这个PPO2算法的解释：使和不要相差太大。横轴就是。如果A>0，也就是某一pair的St和At是比较好的，所以要做的事情是增大这一pair的机率，也就是越大越好，但与的比值不能超过。同理A<0的时候也是一样。

酸酸甜甜我最爱

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
强化学习与多智能体强化学习（四）——on-policy和off-policy

从on-policy到off-policy
复制链接

扫一扫

专栏目录

酸酸甜甜我最爱 CSDN认证博客专家 CSDN认证企业博客

码龄3年

41: 原创

117万+: 周排名

4万+: 总排名

4万+: 访问

: 等级

761: 积分

218: 粉丝

305: 获赞

27: 评论

488: 收藏

私信

关注

热门文章

分类专栏

最新评论

MADDPG-MASTER调试笔记（四）——参数调整
云墨_L: 把文件位置改过去就可以正常修改了，不过一些修改需要重新训练，或者重新开个存储位置。
MADDPG-MASTER调试笔记（四）——参数调整
云墨_L: 抱歉现在才看到这个问题，我是文件放错位置了，把multiagent复制到experiments文件夹下。
MADDPG-MASTER调试笔记（四）——参数调整
Be_well.: 你好请问你解决了被捕食者数量的问题了吗我想请教一下
MADDPG-MASTER调试笔记（四）——参数调整
云墨_L: 原因是multiagent的文件放错位置
MADDPG-MASTER调试笔记（四）——参数调整
云墨_L: 我能正常更换其他地图，但无法通过simple_tag修改里面的智能体个数，

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。