强化学习(on-policy)同步并行采样(on-line)的并行化效率分析
换句话来说,那就是在并行环境数较少的情况下是不建议使用timeout的并行同步方式。由上面的数据可以看到,在并行的环境数较少时,比如160个环境,timeout=0.0001s,这样大致每次收集到主进程的子进程数据大约为4个,当timeout=0.1s,收集到主进程的子进程数据大约为8个,这种情况下使用timeout=0.0001s这种情况其实性能并不比不设置timeout的强,该种情况下主进程完成对所有子进程数据的收集往往性能更高,因为这样可以较少进程间数据交互的次数也能减少下一步神经网络计算的次数;



