强化学习
文章平均质量分 84
OsgoodWu
这个作者很懒,什么都没留下…
展开
-
如何理解强化学习中迭代线性-二次型调节器(ILQR)算法
1、强化学习预备知识(1)状态-动作价值函数Q(s, a):在状态s,先立即执行动作a,后面所有的状态都按照最优动作进行执行,所能获得价值之和;(2)状态价值函数V(s):在状态s,从当前状态直到后面所有的状态,全部按照最优动作进行执行,所能获得的价值之和;(3)策略函数π(s):已经当前的状态s,求解出最优的动作 a;(4)Q(s, a)与V(s)之间的关系:Q(s, a)中先执行的动作a并不一定是最优动作,而V(s)中的每一步动作a都是最优的V(s) = max a Q(s,a)2、原创 2022-03-06 14:33:46 · 5097 阅读 · 0 评论 -
如何理解deepMind 团队的Muzero算法
如何理解deepMind 团队的Muzero算法Muzero算法是什么?Muzero建立在alphaZero算法的搜索能力以及基于搜索的策略迭代算法之上,同时联合了一个学习model在训练的过程中,极大的扩展了该学习算法的应用场景。它主要是将mentor Calor Tree Search算法、hidden state value equivalence思想,以及Deep Neural Network 相结合,创造一个更加general的算法来进行强化学习的训练,一句话总结就是 Muzero算法是一个原创 2021-10-30 15:30:15 · 2050 阅读 · 0 评论 -
强化学习中DQN是如何更新网络参数的?
下面是DQN更新参数的流程框图: 如图所示,当前的状态为S(t),通过eval net可以预测出current state对应的不同actions的Q值,然后通过greedy policy选择让Q值最大的actions进行状态转换。下一个时刻的状态我们设为S(t+1),我们是通过Target net计算出下一个时刻对应的Q值Q(t+1),然后计算出Loss,更新Eval net。 那么网原创 2017-12-27 16:54:19 · 9198 阅读 · 0 评论 -
基于Q-function的强化学习方法的总结
本篇博客只讨论reinforcement learning方法中Q-function的方法,包括Q-learning,NIPS DQN和Nature DQN算法上面的区别,尝试探讨为什么这些改进会对效果有很大的提升。原创 2017-12-25 20:23:53 · 6142 阅读 · 0 评论