强化学习整理-1.Model free方法
强化学习整理1-Model free方法
Q-learning
Q-learning的基本思想是利用时序差分(TD)对状态动作价值函数Q进行更新和迭代,直到当前所有状态-动作空间下的Q值收敛。其具体数学公式为:
Q(st,at)=Q(st,at)+α(rt+γQ(st+1,at+1)−Q(st,at)(1)Q(s_t,a_t)=Q(s_t,a_t)+\alpha(r_t+\gamma Q(s_{t+1},a_{t+1})-Q(s_t,a_t) \tag{1}Q(st,at)=Q(st,at)+α(r
原创
2020-07-02 20:49:07 ·
1146 阅读 ·
1 评论