cleanRL PPO算法代码自留笔记

jiayiliu0811

已于 2024-05-07 15:35:34 修改

阅读量265

点赞数 5

文章标签：笔记

于 2024-05-06 16:14:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ljy0008/article/details/138498154

版权

本文介绍了cleanRL库中的关键概念，如向量化环境、Critic网络（用于状态价值估计）和Actor网络（生成动作分布），并详细解读了get_action_and_value函数中的操作。同时提到了batch_size、minibatch_size和num_iterations等参数。参考了ppo_continuous_action源码解析。

摘要由CSDN通过智能技术生成

cleanRL官网：Examples - CleanRL

cleanRL的tensorboard：

向量化环境：会在回合结束时，自动reset一次

cleanRL代码注解

Critic网络的输入尺寸为(batch_size, obs_dim, 64)，输出尺寸为(batch_size, 1)，作用是形成obs到value的映射。向外暴露get_value函数以计算状态价值。

Actor网络包含两部分：self.action_mean将obs映射到动作均值，输入尺寸为(batch_size, obs_dim, 64)，输出尺寸为(batch_size, action_dim)
self.actor_logstd是一个(1, action_dim)大小的Parameter，用于形成动作方差的对数（后面需要对其使用torch.exp保证其为正数）

get_action_and_value函数中计算了：

动作分布probs
动作采样probs.sample()
对数似然probs.log_prob(action).sum(1)
熵probs.entropy().sum(1)
状态价值self.critic(x)

参数释义：

batch_size：num_envs与num_steps的乘积，表示跑一次迭代能收集到多少样本
minibatch_size：每次训练都从大的batch中抽取小的minibatch进行训练
num_iterations：整个训练过程跑几轮迭代

参考：

[cleanrl] ppo_continuous_action源码解析-CSDN博客

关注

5
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
cleanRL PPO算法代码自留笔记

包含两部分：self.action_mean将obs映射到动作均值，输入尺寸为(batch_size, obs_dim, 64)，输出尺寸为(batch_size, action_dim)self.actor_logstd是一个(1, action_dim)大小的Parameter，用于形成动作方差的对数（后面需要对其使用torch.exp保证其为正数），作用是形成obs到value的映射。函数以计算状态价值。
复制链接

扫一扫

jiayiliu0811 CSDN认证博客专家 CSDN认证企业博客

码龄2年

2: 原创

93万+: 周排名

19万+: 总排名

1137: 访问

: 等级

36: 积分

3: 粉丝

11: 获赞

4: 评论

4: 收藏

私信

关注

热门文章

最新评论

StarCCM+ 导出流场数据（圆柱绕流）
chane123: 请问楼主，这个是不是必须在计算之前就设置？
StarCCM+ 导出流场数据（圆柱绕流）
jiayiliu0811: 您好，我是这样理解的，用衍生零部件建立监测点的话，圆柱内部应该是没有监测点的，没有流场的地方也没有数据，代码读取的数据是NAN
StarCCM+ 导出流场数据（圆柱绕流）
Cc__Sin: up您好，我最近想对圆柱绕流做POD。但是starccm导出的流场的方式目前一个是您提到的，另一个是工具里的table导出，table导出的只有网格点的数据，但是这样感觉重构流场时比较麻烦，如果是衍生零部件等间距采样的的流场数据重构代码就比较简单，不过可能涉及到圆柱内部流场数值的问题
StarCCM+ 导出流场数据（圆柱绕流）
Cc__Sin: 如果监测点有的在圆柱内部，那这些本没有流场数据的点的数据都是0么？这么做和导出某个截面网格点的流场数据哪个处理起来方便？

大家在看

最新文章

StarCCM+ 导出流场数据（圆柱绕流）

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。