A3C:Asynchronous Advatage Actor-Critic
用一句话概括一下:训练的时候,同时为多个线程上分配task,学习一遍后,每个线程将自己学习到的参数更新(这里就是异步的思想)到全局Global Network上,下一次学习的时候拉取全局参数,继续学习
强化学习之A3C
最新推荐文章于 2024-03-30 14:07:49 发布
A3C:Asynchronous Advatage Actor-Critic
用一句话概括一下:训练的时候,同时为多个线程上分配task,学习一遍后,每个线程将自己学习到的参数更新(这里就是异步的思想)到全局Global Network上,下一次学习的时候拉取全局参数,继续学习