RL
这梦想不休不止
这个作者很懒,什么都没留下…
展开
-
强化学习基本算法总结
总结转发 也可以直接去看李弘毅的RL课程,这个总结就是来自他的课程。原创 2018-10-30 16:21:02 · 620 阅读 · 0 评论 -
Soft Actor-Critic:Off-Policy Maximum Entropy Deep ReinforcementLearning with a Stochastic Actor
18年的SAC算法,这篇论文读了一遍,在看openai的spinup的时候,回来再读一遍,结合两者,提出一些要点。 首先要指出现在存在的问题: 1:现在多数model free的算法需要的样本sample的复杂度过高。 2:然后就是需要大强度调参数,参数对performance影响很大。 对于on policy的算法,比如TRPO,PPO,A3C,都存在样本sample的巨大复杂度,并且会...原创 2018-11-19 00:36:25 · 2458 阅读 · 0 评论 -
Addressing Function Approximation Error in Actor-Critic Methods
TD3算法,这个论文的名字一眼就看出,这个的目的是为了解决函数模拟的误差。 按照spinningup的说法,这个算法是基于DDPG的,做了三个方面的改进: 第一点:Clipped Double Q-learning 第二点:Delayed policy update 第三点:Traget policy smoothing 注意:1:TD3是一个off policy的算法 2:TD3只...原创 2018-11-21 01:48:47 · 1404 阅读 · 0 评论