- 博客(1)
- 收藏
- 关注
原创 Tianshou强化学习框架学习-关于Tianshou中PPO策略的Batch参数
最近尝试用Tianshou自定义Policy解决机器人强化学习问题,尝试先用PPO训练一个Baseline,由于采用视觉网络作为PreprocessNet,Actor和Critic的网络参数量很大,8G的显存大概只能使用8个的Batch做反向传播,这个场景下Minibatch的使用就很重要了。然而实际使用中,我们会发现有两个关于Batchsize的定义,并且在一些模型较大情况下,可能会出现不管如何调整Batch,显存依旧溢出的情况,详情见下文。从Tianshou的A2C基类中可以看到其入口参数处有参数。
2025-05-08 01:03:55
448
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人