AsymmetricActor Critic for Image-Based Robot Learning,这篇文章的新颖之处在将simulator(模拟器)的state和image信息分别输入AC的Critic和Actor。
AC算法中,Actor负责产生policy,Critic来评价actor产生policy的优劣。整个AC最终只有image输入,输出policy,即是一个end-to-end system,训练好的agent可直接应用于real world。算法思想很巧妙,也得到了不错的效果。
如下图:
论文详细过程,大家可以参考我做的如下ppt: