人工智能Paper解读之强化学习TRPO算法 人工智能Paper解读之强化学习TRPO算法Paper来源,issued: Apri 20,2017 , Author :John Schulman《Trust Region Policy Optimization》链接高能,慎重点开1.这个有点难 首先,请让我矫情一下,开始写这篇blog,我还是挺心虚的,整晚整晚的睡不着,害怕写不好,因为这篇Paper真的不好懂,研读这篇文章时候,...