- 博客(2)
- 收藏
- 关注
原创 cleanRL PPO算法代码 自留笔记
包含两部分:self.action_mean将obs映射到动作均值,输入尺寸为(batch_size, obs_dim, 64),输出尺寸为(batch_size, action_dim)self.actor_logstd是一个(1, action_dim)大小的Parameter,用于形成动作方差的对数(后面需要对其使用torch.exp保证其为正数),作用是形成obs到value的映射。函数以计算状态价值。
2024-05-06 16:14:04
265
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人