![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
RL
WinddyAkoky
这个作者很懒,什么都没留下…
展开
-
Policy Gradient
一、介绍回顾以下以前 value-based的方法:在value-based方法中,他们都是去学习一个动作的价值函数,然后根据这个动作的价值函数作出下一步选择。以至于这个方法高度依赖动作价值函数,如果没有动作价值函数,也就不知道如何为下一步作出抉择。在本文中,我们提出一种新的想法来解决Reinforcement Learning 中的决策问题。即直接去训练这么一个策略,它能直接给出下一步动作是...原创 2018-11-22 11:06:30 · 294 阅读 · 0 评论 -
Actr-Critc
一、介绍Actor-Critic 算法有两部分组成:actor 和 critic。其中 action 就是Policy Gradient 算法,critic 是Q-learning。所以实际上 actor-critic算法是Q-learning算法和policy gradient算法的结合。Actor Critic 算法能在有限维的输入和有限维的输出中起到比较好的效果。Actor 角色起到...原创 2018-11-22 11:07:35 · 703 阅读 · 0 评论 -
Q-learning
一、介绍Q-learning 算法本质上是在求解函数Q(s,a). 如下图,根据状态s和动作a, 得出在状态s下采取动作a会获得的未来的奖励,即Q(s,a)。 然后根据Q(s,a)的值,决定下一步动作该如何选择。二、算法Q-learning 算法中我们通过获得Q(s,a)函数来寻找在某个状态下的最好的动作,使得最终获得的累计奖励最大其Q(s,a)的计算方法是利用贝尔曼方程如下图是常见...原创 2018-11-22 11:08:03 · 342 阅读 · 0 评论