CRON122-CSDN博客

原创 Tianshou强化学习框架学习-关于Tianshou中PPO策略的Batch参数

最近尝试用Tianshou自定义Policy解决机器人强化学习问题，尝试先用PPO训练一个Baseline，由于采用视觉网络作为PreprocessNet，Actor和Critic的网络参数量很大，8G的显存大概只能使用8个的Batch做反向传播，这个场景下Minibatch的使用就很重要了。然而实际使用中，我们会发现有两个关于Batchsize的定义，并且在一些模型较大情况下，可能会出现不管如何调整Batch，显存依旧溢出的情况，详情见下文。从Tianshou的A2C基类中可以看到其入口参数处有参数。

2025-05-08 01:03:55 665 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人