![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
sunyao_123
这个作者很懒,什么都没留下…
展开
-
强化学习之Q-learning
三要素:状态(state),动作(action),奖赏(reward)。更具具体情况自行进行给定。 Q更新公式: Q是什么?动作效用函数(action-utility function),用于评价在某一状态下采取某个动作的优劣。如果Q训练好了,之后预测时就可以按照Q进行选择动作。 详解Q更新函数: α是学习速率;γ是折扣因子;由公式可知,α控制保留之前效果的比例,α越大,保留之前的训练...原创 2018-04-02 15:12:38 · 2137 阅读 · 0 评论 -
TD Learning,SARSA,Q Learning
最近在读一篇增强学习的综述 DEEP REINFORCEMENT LEARNING : AN OVERVIEW 发现里边介绍SARSA时,伪代码是错误的。 1.TD Learning 2.SARSA 错误就在于,sarsa算法的下一个动作在这次更新时就已经确定了。所以需要在step迭代之前对action进行初始化。 3.Q Learning 我们说Q Learning是o...原创 2018-08-27 10:51:29 · 1675 阅读 · 0 评论